Спасибо, что заглянули. У меня есть вопрос направления - я построил скрытое распределение дирихле, используя оболочку Gensims Mallet Я тренировал модель один раз на OldDataSet.csv и измерил согласованность. Я использовал его, чтобы передать NewDataSet.csv для выделения темы. Мне нужно некоторое руководство о том, как я мог бы предсказать, насколько точно моя предварительно обученная модель выделяет NewDataSet.csv. Этот показатель когерентности проверяет только точность предварительно обученной модели, а не распределенного набора данных. Я бы хотел, чтобы можно было отслеживать появление исторических тем и выявлять появление новых тем без переобучения модели. Как, скажем, это темы в OldDataSet.csv:
- Виски
- Танго
- Фокстрот
Он назначит NewDataSet.csv 1. виски 2. Танго или 3. Фокстрот, но более точное распределение может быть:
- Виски
- Танго
- Альфа
Если я продолжу работать с той же моделью, я могу пропустить эту новую тему. Если существует числовая оценка, которая будет измерять, насколько тесно темы придерживаются NewDataSet.csv, это сэкономит время. Спасибо, Стек, ты всегда меня спасаешь :) 1021 *