Question

Я построил модель Laten Dirichlet Allocation (LDA) для 37 500 документов, используя Java Mallet API. Чтобы автоматически определить «лучшее» количество тем, я вычисляю сложность путем разделения набора данных 80/20 для обучения и оценки и обученных моделей с k = 10 ... k = 500 тем. Но кажется, что недоумение с увеличением числа тем становится все лучше и лучше. Я прочитал несколько дальнейших сообщений об этом, и мне кажется, это ожидаемое поведение. Но если это правда, я просто мог бы выбрать максимальное количество тем, чтобы получить «лучшее» k ?

Q1: Является ли это подходящим подходом для определения лучшего количества тем?

Q2: Если это правильный подход, почему недоумение постоянно улучшается?

Почему в «Скрытом распределении» Дирихле всегда лучше с максимальным количеством тем?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Почему в «Скрытом распределении» Дирихле всегда лучше с максимальным количеством тем?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы