Как импортировать документ с предложениями для обучения модели doc2vec? - PullRequest
0 голосов
/ 11 ноября 2018

я хочу получить косинусное сходство между предложениями. Я протестировал doc2vec с помощью gensim и обучил его только нескольким предложениям, приведенным в коде. Но я хочу обучить мою модель, используя текстовый документ, который имеет одно предложение в каждой строке. Как я могу использовать документ с предложениями?

1 Ответ

0 голосов
/ 11 ноября 2018

Если ваш документ уже представлен в виде текстового файла с одним предложением на строку, то во многих примерах, включенных в gensim (или в другом месте), показано, как обрабатывать такой корпус.

Например, в каталоге docs/notebooks есть вводная записная книжка Doc2Vec в комплекте с gensim, которую вы также можете просмотреть онлайн в репозитории проекта github:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb

Его ячейка (3) показывает, а ячейка (4) использует функцию для построчного чтения файла и превращения его в TaggedDocument тексты, необходимые для модели.

...