Понимание оболочки LDA Mallet gensim в выводе python stderr - PullRequest
0 голосов
/ 10 сентября 2018

Я пытаюсь понять недоумение тематической модели LDA, сгенерированной Маллетом, чтобы решить, сколько итераций мне следует использовать для генерации модели.

Я хотел бы использовать недоумение в качестве меры, чтобы определить это, поскольку показатель когерентности, похоже, не соответствует количеству итераций. (Я получаю лучший результат за 1 итерацию)

Я создал модели с 250 темами и перепробовал 50, 100, а затем 200 итераций.

Исходя из моего понимания, Маллет выводит недоумение в stderr в виде

<10> LL/token: -8.95177

Где недоумение 2 ^ (- (- 8,95177)). Однако, когда я запускаю модель, она выводит эти строки несколько раз, например

<160> LL/token: -8.09511
<170> LL/token: -8.06192
<180> LL/token: -8.05979
<190> LL/token: -8.0331

Я пытаюсь выяснить, что означают числа в < >, а также выяснить окончательную путаницу моделей, созданных с 50, 100 и 200 итерациями соответственно. Как я могу это выяснить?

...