Я изо всех сил пытаюсь понять использование doc2vec.Я обучил игрушечную модель на наборе документов, используя некоторый пример кода, который я видел при поиске в Google.Далее я хочу найти документ, который модель считает наиболее близким к документам в моих данных обучения.Скажем, мой документ «Это образец документа».
test_data = word_tokenize("This is a sample document".lower())
v = model.infer_vector(test_data)
print(v)
# prints a numpy array.
# to find most similar doc using tags
similar_doc = model.docvecs.most_similar('1')
print(similar_doc)
# prints [('0', 0.8838234543800354), ('1', 0.875300943851471), ('3',
# 0.8752948641777039), ('2', 0.865660548210144)]
Я искал справедливо, но не понимаю, как интерпретировать Similar_doc.Я хочу ответить на вопрос: «какие документы в моих обучающих данных наиболее точно соответствуют документу« Это образец документа »», так как я могу отобразить вывод Similar_doc обратно на обучающие данные?Я не понял массив кортежей, вторая половина каждого кортежа должна быть вероятностью, но что такое «0», «1» и т. Д.?