Я пытаюсь использовать тематическое моделирование с Маллетом, но у меня есть вопрос.
Как узнать, когда мне нужно перестроить модель? Например, у меня есть такое количество документов, которые я сканировал из Интернета, используя моделирование тем, предоставленное Маллетом, я мог бы создавать модели и выводить из них документы. Но со временем, с новыми данными, которые я просканировал, могут появиться новые предметы. В таком случае, как я узнаю, должен ли я перестроить модель с начала до текущего?
Я думал об этом для документов, которые я сканировал каждый месяц. Может кто-нибудь посоветовать, пожалуйста?
Итак, моделирование тем больше подходит для текста в фиксированном количестве тем (входной параметр k, количество тем). Если нет, то как мне определить, какой номер использовать?