Как найти сходство между двумя списками строк, используя doc2vec? - PullRequest
0 голосов
/ 27 мая 2019

У меня есть список строк, как показано ниже. Я хотел бы видеть сходство между list1 и list2 при использовании Doc2Vec.

list1 = [['i','love','machine','learning','its','awesome'],['i', 'love', 'coding', 'in', 'python'],['i', 'love', 'building', 'chatbots']]
list2 = ['i', 'love', 'chatbots']

1 Ответ

0 голосов
/ 27 мая 2019

Если вы используете реализацию Doc2Vec в библиотеке gensim, есть вступительные записные книжки, которые охватывают это.См., Например, файл doc2vec-lee.ipynb, который находится внутри каталога gensim docs/notebooks (где вы можете и можете запустить его локально) или который можно просмотреть в Интернете по адресу:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb

Обратите внимание, что:

  • вам понадобится модель, обученная на гораздо большем количестве данных - в идеале десятки тысяч или более текстов, причем каждый текст должен содержать как минимум предложение

  • если два текста, которые вы хотите сравнить, были частью вашего учебного набора, вы можете извлечь изученные векторы документов из модели

  • , если два текста выЕсли вы хотите сравнить, не являются частью учебного набора, вы можете определить для них векторы документов, используя модель, как показано в этом блокноте

...