Как указал emilliman5, ваш stm_model
обеспечивает доступ к базовым параметрам модели, как показано в документации .
Действительно, параметр theta
представляет собой матрицу
Количество документов по количеству тем в пропорциях тем.
Это требует некоторого лингвистического анализа: это матрица N_DOCS
на N_TOPICS
, т. е. она имеет N_DOCS
строк, по одному на документ, и N_TOPICS
столбцов, по одному на тему.Значения являются пропорциями темы, т.е. если stm_model[1, ] == c(.3, .2, .5)
, это означает, что Документ 1 - это 30% Тема 1, 20% Тема 2 и 50% Тема 3.
Чтобы выяснить, какая тема доминирует в документе, у вас естьнайти (столбец!) индекс максимального значения, который можно получить, например, вызвав apply
с MARGIN=1
, который в основном говорит «делайте это по строкам»;which.max
просто возвращает индекс максимального значения:
apply(stm_model$theta, MARGIN=1, FUN=which.max)