Я только начал использовать word2vec, и я не знаю, как создать векторы (используя word2vec) из двух разных наборов документов, document1 содержит набор слов плюс фразы (список списков), а document2 содержит только фразы. Оба списка имеют разной длины.
Например:
document_list1 =[['blogs', 'vmware', 'server', 'virtual', 'oracle update', 'virtualization', 'application server','infrastructure', 'management']['team',olympics,'sport','win''chinese olympic']..]
document_list2 = ['microsoft visual studio','desktop virtualization',
'microsoft exchange server','cloud computing','windows server 2008']['demonstration sport','commonwealth games','summer olympic games']..]
как я могу вычислить косинусное сходство? я должен создать векторы для всех предложений в document_list1 и затем для document_list2 и затем косинусного сходства или я должен создать векторы отдельно для каждого предложения в обоих document_lists?
Любая помощь будет оценена.