Этот файл дампа включает в себя статьи из Википедии в формате XML - без векторов. Методы load_word2vec_format()
загружают только те наборы векторов, которые были обучены ранее.
Ваш каталог gensim
установки docs/notebooks
содержит несколько демонстрационных записных книжек Jupyter, которые вы можете запустить. Один из них, doc2vec-wikipedia.ipynb
, показывает обучающие векторы документов, основанные на дампе статей Википедии. (Вместо этого его можно легко адаптировать для обучения только векторов слов.)
Вы также можете просмотреть этот блокнот онлайн по адресу:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb
Обратите внимание, что вы узнаете больше из них, если будете запускать их локально и включить ведение журнала на уровне INFO. Кроме того, это конкретное обучение может занять целый день или более для запуска и потребовать машину с 16 ГБ или более или ОЗУ.