Связь между скрытым распределением Дирихле и кластеризацией документов - PullRequest
8 голосов
/ 07 июля 2011

Я хотел бы уточнить связь между скрытым распределением Дирихле (LDA) и общей задачей кластеризации документов.

Анализ LDA имеет тенденцию выводить пропорции темы для каждого документа. Если я правильно понимаю, это не прямой результат кластеризации документов. Однако мы можем рассматривать эти вероятностные пропорции как репрезентацию признаков для каждого документа. После этого мы можем вызвать другой установленный метод кластеризации на основе конфигураций функций, сгенерированных анализом LDA.

Правильно ли мое понимание? Спасибо.

1 Ответ

10 голосов
/ 07 июля 2011

Да, вы можете рассматривать вывод LDA как функции для ваших документов; это именно то, что Блей, Нг и Джордан сделали в статье , в которой был представлен LDA . Они сделали это для классификации, но для кластеризации процедура та же самая.

(В терминологии машинного обучения такое использование LDA называется уменьшение размерности , потому что оно уменьшает число пространств признаков с | V |, размером словаря, до некоторого числа k тем, выбранных пользователем.)

...