Вопрос о распределении скрытого дирихле (MALLET) - PullRequest
2 голосов
/ 10 ноября 2010

Честно говоря, я не знаком с LDA, но мне необходимо использовать моделирование тем MALLET для одного из моих проектов.

Мой вопрос таков: в качестве обучающих данных в качестве учебной информации приводится набор документов в пределах определенной временной отметки.для модели темы, насколько уместно использовать модель (используя логический вывод) для отслеживания тенденций темы, для документов + или - метку времени обучающих данных.Я имею в виду, является ли распределение тем, предоставляемое MALLET, подходящим показателем для отслеживания популярности тем с течением времени, если на этапе построения модели мы предоставляем только подмножество набора данных, который требуется проанализировать.

Благодарю.

Ответы [ 3 ]

3 голосов
/ 11 ноября 2010

Вы famailiar с Скрытое семантическое индексирование ? Латентный анализ Дирихле - это просто другой способ сделать то же самое, поэтому LSI или pLSI может оказаться более простой отправной точкой для получения знаний о целях LDA.

Все три метода привязаны к темам без присмотра (вы указываете, сколько тем искать), а затем предполагаете, что каждый документ охватывает каждую тему в разных пропорциях. В зависимости от того, сколько тем вы выделите, они могут вести себя как подполя того, о чем ваш корпус, и могут быть не такими конкретными, как "темы", о которых думают люди, когда думают о трендовых темах в новости.

Почему-то я подозреваю, что вы хотите предположить, что каждый документ представляет определенную тему. LSI / pLSI / LDA не делают этого - они моделируют каждый документ как смесь тем. Это не значит, что вы не получите хороших результатов или что это не стоит того, чтобы попробовать, но я подозреваю (хотя я не обладаю всесторонним знанием литературы LSI), что вы решите совершенно новую исследовательскую задачу .

(FWIW, я подозреваю, что использование методов кластеризации, таких как k-Means , более легко моделирует предположение, что каждый документ имеет ровно одну тему.)

2 голосов
/ 11 ноября 2011

Мне известны три подхода к отслеживанию популярности тем с течением времени.

  1. Похоже, вы могли бы извлечь выгоду из динамического подхода к моделированию тем, который смотрит на то, как темы меняются со временем. Есть хороший видео-обзор работы Блея над этим здесь и несколько PDF-файлов на его домашней странице . У него есть пакет в C, который делает это.

  2. Сходным подходом является строковый подход Алисы О, где она получает темы с помощью LDA для текстов из временных интервалов, а затем использует метрику сходства тем для связывания тем из разных временных отрезков в строки ( видео , PDF ). Похоже, MALLET может быть частью анализа тематической строки, но она не упоминает, как проводила анализ LDA.

  3. Самым простым подходом может быть то, что Дэвид Мимно делает в своей статье , где он вычисляет средний год темы по хронологическому распределению слов в теме. Он участвует в разработке MALLET, так что, вероятно, он полностью сделан с этим пакетом.

2 голосов
/ 10 ноября 2010

Вам следует ознакомиться со списком рассылки topic-models в Принстоне . Они обсуждают теоретические и практические вопросы, касающиеся тематических моделей.

...