как создать word2vec для фраз, а затем рассчитать косинусное сходство - PullRequest
0 голосов
/ 12 апреля 2019

Я только начал использовать word2vec, и я не знаю, как создать векторы (используя word2vec) из двух разных наборов документов, document1 содержит набор слов плюс фразы (список списков), а document2 содержит только фразы. Оба списка имеют разной длины.

Например:

document_list1 =[['blogs', 'vmware', 'server', 'virtual', 'oracle update', 'virtualization', 'application server','infrastructure', 'management']['team',olympics,'sport','win''chinese olympic']..]
document_list2 = ['microsoft visual studio','desktop virtualization',
'microsoft exchange server','cloud computing','windows server 2008']['demonstration sport','commonwealth games','summer olympic games']..]

как я могу вычислить косинусное сходство? я должен создать векторы для всех предложений в document_list1 и затем для document_list2 и затем косинусного сходства или я должен создать векторы отдельно для каждого предложения в обоих document_lists?

Любая помощь будет оценена.

...