При обучении тематической модели на молотке можно узнать гиперпараметры при выводе с помощью функции --optimize-interval [INTEGER]
. У меня есть следующие вопросы относительно этой функции:
Какие параметры изучены? Изучены ли альфа и бета одновременно или только один из них, и если да, то какой?
Какова рациональная функция -use-symmetric-alpha
? Справка внутри молотка гласит: «... Оптимизируйте только параметр концентрации при распределении по темам, предшествующим документам ...». Но приоритет для распространения темы документа - альфа, не так ли? Таким образом, команда должна называться -use-symmetric-beta
с подсказкой. Или это просто ошибка в тексте справки? Кроме того, насколько я понял литературу (см., Например, Wallach et al. (2009): Переосмысление LDA: Почему важен Priors), асимметричный априор выгоден только для распространения по тематике документов и не приносит пользы для распределения по теме. Альфа - это дирихлет, предшествующий распространению по тематике документов. После этого я не понимаю смысла функции -use-symmetric-alpha
.
Есть ли в молотке возможность узнать только предшествующий документ по теме распространения?
Спасибо за любую помощь.