Лучшая модель для определения / открытия темы - PullRequest
3 голосов
/ 06 октября 2011

Какова лучшая модель для определения темы в коротких неструктурированных документах, напр.СМС или твиттер сообщения?Латентное выделение Дирихле?

Ответы [ 3 ]

5 голосов
/ 07 октября 2011

LDA - одна из самых сильных моделей, доступных для тематического моделирования, но ее применение к очень коротким текстам, таким как сообщения в Твиттере / микроблогах, может потребовать дополнительной работы.Авторы этой статьи обсуждают LDA и альтернативную модель и рекомендуют агрегировать несколько сообщений перед запуском тематической модели.

[Осторожно с терминологией: «определение темы» на самом деле является старымсиноним для контролируемой классификации документов.]

0 голосов
/ 23 марта 2016

Применение тематических моделей, таких как LDA, для коротких текстов (например, твитов) является более сложной задачей из-за редкости данных и ограниченного контекста в таких текстах.Один из подходов заключается в объединении коротких текстов в длинные псевдодокументы перед обучением LDA.Другой простой подход заключается в предположении, что в документе имеется только одна тема.

Модель одна тема на документ Модель Dirichlet Multinomial Mixture (DMM) (смесь униграмм) лучше, чем модель темы LDA для моделирования тем в коротких текстах или твитах.Вы можете найти реализации моделей LDA и DMM в пакетах jLDADMM .jLDADMM также предоставляет оценку кластеризации документов для сравнения этих тематических моделей.

0 голосов
/ 07 октября 2011

Я думаю, что все зависит от данных.Таким образом, вы должны также попробовать чистый TFIDF, LSI, LDA, kmeans, иерархическую кластеризацию, чтобы обнаружить полезные фразы, темы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...