Работает ли WikiCorpus из библиотеки gensim на дампе Арабики c Википедии? - PullRequest
0 голосов
/ 28 февраля 2020

Я вижу код, который использует Wikicorpus на дампе Википедии Arabi c, и я знаю, что процесс займет много времени, я также искал предупреждение о том, что я получаю при его выполнении, которое гласит:

(UserWarning: обнаружена Windows; псевдоним chunkize для chunkize_serial
warnings.warn ("обнаружена Windows; псевдоним chunkize для chunkize_serial"))

и в ответах сказано, что это хорошо, ничего серьезного, это просто предупреждение. Но после ожидания около 3 дней без ответа! Я начинаю задумываться, действительно ли это работает с файлом дампа Arabi c, или мне нужно выполнить некоторую предварительную обработку перед передачей файла дампа Arabi c объекту Wikicorpus? размер данных составляет около 989,6 МБ. и я окружаю строку кода WikiCorpus двумя командами печати, чтобы знать, когда она началась и когда она закончилась, например:

print('start WikiCorpus')
wiki = WikiCorpus(self.in_f)
print('finish WikiCorpus')

, где self.in_f - это дамп Arabi c Wikipedia, подобный этому : (/ путь к файлу / arwiki-20200201-pages-article. xml .bz2), но никогда не достигал второй команды печати во время выполнения.

1 Ответ

0 голосов
/ 29 февраля 2020

Должно работать, особенно если в арабском c есть четкие разделители слов (например, пробелы между словами).

Однако на Windows многое сложнее, учитывая, что gensim и большинство связанных Python библиотек науки о данных получают больше разработки / тестирования / использования в других местах, а некоторые Windows - Speci c странности с многопроцессорностью. Если у вас есть возможность работать на другой ОС, это может упростить задачу.

Был еще один недавний вопрос, описывающий аналогичную проблему с en dump & WikiCorpus - есть идеи, как проверить мой ответ там , хотя неясно, если спрашивающий когда-либо решал проблему.

Кроме того, при использовании кода, основанного на Python multiprocessing в Windows, может быть особенно необходимо отключить ваш код в «основном» блоке, который не будет перезапустите, если ваш файл повторно импортирован другими процессами, и вызовите функцию Windows -specifi c freeze_support(). См. недавнее обсуждение соответствующего вопроса в списке проектов gensim .

...