Сходство документа с doc2vec - PullRequest
0 голосов
/ 15 октября 2018

С этим примером Gensim в github, https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb в конце приводятся примеры для поиска символов с фразами или ключевыми словами, такими как «Lady Gaga» или «Машинное обучение».Однако я пытаюсь найти сходство с реальным документом в текстовом файле, можно ли это сделать?и как я могу это сделать?Предположим, текстовый файл находится на моем локальном ноутбуке в формате TXT.

1 Ответ

0 голосов
/ 16 октября 2018

Маркируйте запрос-документ так же, как данные обучения.Передайте эти токены методу Doc2Vec модели *1001*, чтобы получить вектор для документа запроса.Передайте этот вектор в most_similar(), чтобы получить ранжированный список известных документов, подобных этому вектору.

Есть примеры использования infer_vector() таким образом в ячейках 10 и далее в другой демонстрационной записной книжке, включенной в gensim:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb

...