Почему в «Скрытом распределении» Дирихле всегда лучше с максимальным количеством тем? - PullRequest
0 голосов
/ 20 марта 2020

Я построил модель Laten Dirichlet Allocation (LDA) для 37 500 документов, используя Java Mallet API. Чтобы автоматически определить «лучшее» количество тем, я вычисляю сложность путем разделения набора данных 80/20 для обучения и оценки и обученных моделей с k = 10 ... k = 500 тем. Но кажется, что недоумение с увеличением числа тем становится все лучше и лучше. Я прочитал несколько дальнейших сообщений об этом, и мне кажется, это ожидаемое поведение. Но если это правда, я просто мог бы выбрать максимальное количество тем, чтобы получить «лучшее» k ?

enter image description here

Q1: Является ли это подходящим подходом для определения лучшего количества тем?

Q2: Если это правильный подход, почему недоумение постоянно улучшается?

...