Я использую моделирование топи c и LDA для схожести предложений. Каждый документ в корпусе имеет различную длину от 2 слов до 15 слов.
Когда я преобразовываю свой документ запроса в распределение вероятностей topi c, каждый документ запроса дает различную длину распределения вероятностей тем. Я не могу применить меру подобия, такую как расстояние Дженсена-Шеннона.
text = ["user"]
bow = dictionary.doc2bow(text)
print("get_document_topics: ", model.get_document_topics(bow))
### get_document_topics [(0, 0.74568415806946331), (1, 0.25431584193053675)]
text = ["user", "boy"]
bow = dictionary.doc2bow(text)
print("get_document_topics: ", model.get_document_topics(bow))
### get_document_topics [(3, 0.74568415806946331), (2, 0.25431584193053675), (1, 0.5431584193053675)]
Можно ли получить распределение topi c для каждого документа, чтобы оно содержало вероятности для всех тем документа. Так что длина каждого списка, возвращаемого get_document_topics (bow), одинакова.