Некоторые ссылки на хорошие практики в тематическом моделировании: Уход и кормление тематических моделей с Джорданом Бойд-Грабером и Дейвом Ньюманом и Прикладное тематическое моделирование с Джорданом Бойд-Грабером и ЮенингомХу.
Для оптимизации гиперпараметра --optimize-interval 20 --optimize-burn-in 50
должно быть в порядке, кажется, он не очень чувствителен к конкретным значениям.Сходимость для выборки Гиббса трудно оценить, 1000 итераций по умолчанию следует интерпретировать как «достаточно большое число, что, вероятно, все в порядке», а не как конкретное значение.
Если вы читаете отдельные документы из файлов в каталогелинии не имеют значения.Если до удаления стоп-слова документы длиннее, чем около 1000 токенов, рассмотрите возможность разбиения их на более мелкие сегменты.
hLDA включен только потому, что, похоже, люди этого хотят, я не рекомендую его для каких-либо целей.