Вы famailiar с Скрытое семантическое индексирование ? Латентный анализ Дирихле - это просто другой способ сделать то же самое, поэтому LSI или pLSI может оказаться более простой отправной точкой для получения знаний о целях LDA.
Все три метода привязаны к темам без присмотра (вы указываете, сколько тем искать), а затем предполагаете, что каждый документ охватывает каждую тему в разных пропорциях. В зависимости от того, сколько тем вы выделите, они могут вести себя как подполя того, о чем ваш корпус, и могут быть не такими конкретными, как "темы", о которых думают люди, когда думают о трендовых темах в новости.
Почему-то я подозреваю, что вы хотите предположить, что каждый документ представляет определенную тему. LSI / pLSI / LDA не делают этого - они моделируют каждый документ как смесь тем. Это не значит, что вы не получите хороших результатов или что это не стоит того, чтобы попробовать, но я подозреваю (хотя я не обладаю всесторонним знанием литературы LSI), что вы решите совершенно новую исследовательскую задачу .
(FWIW, я подозреваю, что использование методов кластеризации, таких как k-Means , более легко моделирует предположение, что каждый документ имеет ровно одну тему.)