Определите идентификатор документа на выходе Mahout LDA - PullRequest
2 голосов
/ 25 февраля 2011

Я успешно запустил mahout lda и отобразил результат с помощью команды mahout ldatopics.

Например, мои темы - наука и спорт.тогда результат будет таким: тема 0 баскетбол, игра, бейсбол тема 1 исследование, учеба, философия

Теперь у меня вопрос, как мне определить группу или группу отдельной статьи.Есть ли идентификационный номер или какой-то другой вид отслеживания, так что для каждой новой статьи, которую я добавляю, она будет сгруппирована или добавлена ​​в определенный кластер / тему.

Если у меня уже есть кластер, каков следующий шаг?

Спасибо

1 Ответ

0 голосов
/ 03 марта 2011

Я просматривал исходный код и не могу найти упоминания о тэта-матрице для расчета вероятности тем для данного документа, и поскольку нет никакого значения для альфа-значения для оценки тем для документа и В классе LDAState есть метод logProbWordGivenTopic(int, int), но ничего похожего на getProbTopicGivenDocument() Я могу только предположить, что реализация LDA не имеет отношения к обнаружению распределения тем для конкретных документов. Я бы хотел ошибиться, если бы кто-то знал лучше.

...