Применение тематических моделей, таких как LDA, для коротких текстов (например, твитов) является более сложной задачей из-за редкости данных и ограниченного контекста в таких текстах.Один из подходов заключается в объединении коротких текстов в длинные псевдодокументы перед обучением LDA.Другой простой подход заключается в предположении, что в документе имеется только одна тема.
Модель одна тема на документ Модель Dirichlet Multinomial Mixture (DMM) (смесь униграмм) лучше, чем модель темы LDA для моделирования тем в коротких текстах или твитах.Вы можете найти реализации моделей LDA и DMM в пакетах jLDADMM .jLDADMM также предоставляет оценку кластеризации документов для сравнения этих тематических моделей.