Я пытаюсь понять недоумение тематической модели LDA, сгенерированной Маллетом, чтобы решить, сколько итераций мне следует использовать для генерации модели.
Я хотел бы использовать недоумение в качестве меры, чтобы определить это, поскольку показатель когерентности, похоже, не соответствует количеству итераций. (Я получаю лучший результат за 1 итерацию)
Я создал модели с 250 темами и перепробовал 50, 100, а затем 200 итераций.
Исходя из моего понимания, Маллет выводит недоумение в stderr
в виде
<10> LL/token: -8.95177
Где недоумение 2 ^ (- (- 8,95177)). Однако, когда я запускаю модель, она выводит эти строки несколько раз, например
<160> LL/token: -8.09511
<170> LL/token: -8.06192
<180> LL/token: -8.05979
<190> LL/token: -8.0331
Я пытаюсь выяснить, что означают числа в < >
, а также выяснить окончательную путаницу моделей, созданных с 50, 100 и 200 итерациями соответственно. Как я могу это выяснить?