LDA обнаруживает новые возникающие темы - PullRequest
0 голосов
/ 07 мая 2019

Спасибо, что заглянули. У меня есть вопрос направления - я построил скрытое распределение дирихле, используя оболочку Gensims Mallet Я тренировал модель один раз на OldDataSet.csv и измерил согласованность. Я использовал его, чтобы передать NewDataSet.csv для выделения темы. Мне нужно некоторое руководство о том, как я мог бы предсказать, насколько точно моя предварительно обученная модель выделяет NewDataSet.csv. Этот показатель когерентности проверяет только точность предварительно обученной модели, а не распределенного набора данных. Я бы хотел, чтобы можно было отслеживать появление исторических тем и выявлять появление новых тем без переобучения модели. Как, скажем, это темы в OldDataSet.csv:

  1. Виски
  2. Танго
  3. Фокстрот

Он назначит NewDataSet.csv 1. виски 2. Танго или 3. Фокстрот, но более точное распределение может быть:

  1. Виски
  2. Танго
  3. Альфа

Если я продолжу работать с той же моделью, я могу пропустить эту новую тему. Если существует числовая оценка, которая будет измерять, насколько тесно темы придерживаются NewDataSet.csv, это сэкономит время. Спасибо, Стек, ты всегда меня спасаешь :) 1021 *

1 Ответ

0 голосов
/ 17 мая 2019

Я нашел решение, которое называется динамическим моделированием темы.Я связал статью, документирующую его использование.Это все еще исследуется, но в основном это LDA, которое принимает во внимание время и может печатать темы, изменяющиеся со временем.

https://github.com/rare-technologies/gensim/blob/develop/docs/notebooks/ldaseqmodel.ipynb

Также ознакомьтесь с Google Bleis по этому вопросу:

https://www.youtube.com/watch?v=7BMsuyBPx90

...