Я вижу код, который использует Wikicorpus на дампе Википедии Arabi c, и я знаю, что процесс займет много времени, я также искал предупреждение о том, что я получаю при его выполнении, которое гласит:
(UserWarning: обнаружена Windows; псевдоним chunkize для chunkize_serial
warnings.warn ("обнаружена Windows; псевдоним chunkize для chunkize_serial"))
и в ответах сказано, что это хорошо, ничего серьезного, это просто предупреждение. Но после ожидания около 3 дней без ответа! Я начинаю задумываться, действительно ли это работает с файлом дампа Arabi c, или мне нужно выполнить некоторую предварительную обработку перед передачей файла дампа Arabi c объекту Wikicorpus? размер данных составляет около 989,6 МБ. и я окружаю строку кода WikiCorpus двумя командами печати, чтобы знать, когда она началась и когда она закончилась, например:
print('start WikiCorpus')
wiki = WikiCorpus(self.in_f)
print('finish WikiCorpus')
, где self.in_f - это дамп Arabi c Wikipedia, подобный этому : (/ путь к файлу / arwiki-20200201-pages-article. xml .bz2), но никогда не достигал второй команды печати во время выполнения.