как обрабатывать документы различной длины при использовании моделирования topi c в LDA - PullRequest
0 голосов
/ 19 марта 2020

Я использую моделирование топи c и LDA для схожести предложений. Каждый документ в корпусе имеет различную длину от 2 слов до 15 слов.

Когда я преобразовываю свой документ запроса в распределение вероятностей topi c, каждый документ запроса дает различную длину распределения вероятностей тем. Я не могу применить меру подобия, такую ​​как расстояние Дженсена-Шеннона.

text = ["user"]
bow = dictionary.doc2bow(text)
print("get_document_topics: ", model.get_document_topics(bow))
### get_document_topics [(0, 0.74568415806946331), (1, 0.25431584193053675)]

text = ["user", "boy"]
bow = dictionary.doc2bow(text)
print("get_document_topics: ", model.get_document_topics(bow))
### get_document_topics [(3, 0.74568415806946331), (2, 0.25431584193053675), (1, 0.5431584193053675)]

Можно ли получить распределение topi c для каждого документа, чтобы оно содержало вероятности для всех тем документа. Так что длина каждого списка, возвращаемого get_document_topics (bow), одинакова.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...