Я не знаю ни одного хорошего. Есть один связанный с этот проект , но:
- он основан на пользовательском форке из старого gensim, поэтому не загружается в последнем коде
- неясно, с какими параметрами или данными он был обучен, и соответствующая статья могла сделать неосведомленный выбор относительно влияния параметров
- представляется неправильным размер для включения фактических векторов документов для статей Википедии (более 4 миллионов) или абзацев статей (десятки миллионов), или для значительного числа векторов слов, поэтому неясно, что было отброшено
Хотя на это требуется много времени и значительный объем оперативной памяти, существует ноутбук Jupyter, демонстрирующий создание модели Doc2Vec
из Википедии, включенной в gensim:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb
Итак, я бы порекомендовал исправить ошибки в вашей попытке. (И, если вам удастся создать модель и вы захотите задокументировать ее для других, вы можете загрузить ее куда-нибудь для повторного использования.)