Некоторые сведения о работе, которую я проделал до сих пор:
Я строю модель темы на текстовых данных и провел настройку темы (с использованием показателя когерентности), чтобы определить оптимальное количество тем.
Однако сейчас я хочу запустить эту модель в производство.Я ожидаю, что с новыми данными изменится мой словарный запас и, возможно, также будет оптимальное количество тем.
1) Я ищу идеи, как обеспечить автоматическую настройку оптимального количества параметров при изменении словарного запаса с новыми невидимыми данными
2) Независимо от 1), я планируюобновите модель LDA gensim с новыми данными и сравните новую обновленную модель со старой моделью, используя некоторую меру подобия, например расстояние по Джакарду.
Пожалуйста, дайте мне знать ваши мысли или какой-то лучший подход для обработки новых невидимых данных.