Есть ли предварительно обученная модель doc2vec? - PullRequest
0 голосов
/ 02 июля 2018

Существует ли предварительно обученная модель doc2vec с большим набором данных, например, Википедия или подобное?

Ответы [ 2 ]

0 голосов
/ 15 ноября 2018

Да! Я мог найти две предварительно обученные модели doc2vec по этой ссылке

но так и не смог найти ни одной предварительно обученной модели doc2vec, которая обучается на твитах

0 голосов
/ 10 июля 2018

Я не знаю ни одного хорошего. Есть один связанный с этот проект , но:

  • он основан на пользовательском форке из старого gensim, поэтому не загружается в последнем коде
  • неясно, с какими параметрами или данными он был обучен, и соответствующая статья могла сделать неосведомленный выбор относительно влияния параметров
  • представляется неправильным размер для включения фактических векторов документов для статей Википедии (более 4 миллионов) или абзацев статей (десятки миллионов), или для значительного числа векторов слов, поэтому неясно, что было отброшено

Хотя на это требуется много времени и значительный объем оперативной памяти, существует ноутбук Jupyter, демонстрирующий создание модели Doc2Vec из Википедии, включенной в gensim:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb

Итак, я бы порекомендовал исправить ошибки в вашей попытке. (И, если вам удастся создать модель и вы захотите задокументировать ее для других, вы можете загрузить ее куда-нибудь для повторного использования.)

...