Если вы включите ведение журнала на уровне INFO, вы должны увидеть обильный вывод прогресса.
Оптимальная пропускная способность для моделей Word2Vec
или Doc2Vec
компании gensim часто находится на некотором уровне workers
между 3 и 12, но никогда не превышает количества доступных процессорных ядер.(Существует дополнительная оптимизация, которая особенно полезна для машин с большим количеством ядер, если вы используете определенный формат корпуса на диске, который доступен в самой последней версии 3.6.0 gensim - см. примечания к выпуску для получения дополнительной информации.info.)
Если вы видите такое низкое использование на установке с 4 ядрами и 4 работниками, узким местом может быть ваш итератор корпуса.Если он выполняет какой-либо сложный ввод-вывод или обработку текста на основе регулярных выражений, то часто обучающие рабочие потоки бездействуют, ожидая, пока один основной поток корпуса-итератора произведет больше текста, ограничивая общее использование и эффективность.
Вы должныпопробуйте выполнить сложную работу один раз и переписать результаты с тегами / токенами на диск в виде более простого файла.Затем прочитайте это с помощью очень простого итератора, разделенного строкой и пробелом, для фактического обучения модели.
(Если ваши 4 ядра на самом деле поддерживают больше виртуальных ядер, возможно, что некоторое значение workers
до 8 может достичь более высокой пропускной способности ... но только метод проб и ошибок, с вашими индивидуальными параметрами модели, можетв настоящее время найдите свой локальный оптимум. Оптимальное значение может варьироваться в зависимости от других параметров, таких как size
, window
, negative
и т. д.)