Gensim Doc2Vec Использование - PullRequest
       9

Gensim Doc2Vec Использование

0 голосов
/ 18 сентября 2018

У меня есть подозрение, что это немного наивный вопрос об использовании Gensim Doc2Vec.

Во всех уроках, с которыми я работал через , таких как этот , мы всегда заканчиваемсо сценарием, в котором мы сравниваем тестовый документ с существующим корпусом, чтобы найти его сходство с документом в существующем корпусе.Вот так:

model = gensim.models.doc2vec.Doc2Vec(vector_size=50, min_count=2, epochs=40)
model.build_vocab(train_corpus)
inferred_vector = model.infer_vector(test_corpus[doc_id])
sims = model.docvecs.most_similar([inferred_vector], 
topn=len(model.docvecs))

Но, безусловно, самая распространенная проблема (и, конечно, моя), это когда у вас есть два тестовых документа, и вы хотите определить, насколько они похожи друг на друга, используя предварительно обученную модель.Сначала я подумал, что могу просто обойти эту проблему, обновив модель одним из невидимых документов (оба они созданы пользователем, поэтому я не могу предварительно загрузить их), но это, похоже, открытый вопрос .

Итак, мой вопрос, как я могу сделать:

model.similarity(unseen_doc1, unseen_doc2)
# --> some score
...