Question

Я использую моделирование топи c и LDA для схожести предложений. Каждый документ в корпусе имеет различную длину от 2 слов до 15 слов.

Когда я преобразовываю свой документ запроса в распределение вероятностей topi c, каждый документ запроса дает различную длину распределения вероятностей тем. Я не могу применить меру подобия, такую как расстояние Дженсена-Шеннона.

text = ["user"]
bow = dictionary.doc2bow(text)
print("get_document_topics: ", model.get_document_topics(bow))
### get_document_topics [(0, 0.74568415806946331), (1, 0.25431584193053675)]

text = ["user", "boy"]
bow = dictionary.doc2bow(text)
print("get_document_topics: ", model.get_document_topics(bow))
### get_document_topics [(3, 0.74568415806946331), (2, 0.25431584193053675), (1, 0.5431584193053675)]

Можно ли получить распределение topi c для каждого документа, чтобы оно содержало вероятности для всех тем документа. Так что длина каждого списка, возвращаемого get_document_topics (bow), одинакова.

как обрабатывать документы различной длины при использовании моделирования topi c в LDA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

как обрабатывать документы различной длины при использовании моделирования topi c в LDA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы