Я построил модель Laten Dirichlet Allocation (LDA) для 37 500 документов, используя Java Mallet API. Чтобы автоматически определить «лучшее» количество тем, я вычисляю сложность путем разделения набора данных 80/20 для обучения и оценки и обученных моделей с k = 10 ... k = 500 тем. Но кажется, что недоумение с увеличением числа тем становится все лучше и лучше. Я прочитал несколько дальнейших сообщений об этом, и мне кажется, это ожидаемое поведение. Но если это правда, я просто мог бы выбрать максимальное количество тем, чтобы получить «лучшее» k ?
Q1: Является ли это подходящим подходом для определения лучшего количества тем?
Q2: Если это правильный подход, почему недоумение постоянно улучшается?