Структурное моделирование тем в R: статистическая значимость сюжета для содержания тем - PullRequest
1 голос
/ 20 октября 2019

мой вопрос относится к моделированию структурных тем в R, в частности к пакету stm, разработанному Roberts et al. (https://cran.r -project.org / web / packages / stm / vignettes / stmVignette.pdf ).

Я реализовал структурную модель темы, чтобы исследовать, существует ли статистическисущественная разница в словарном запасе, с которой женщины и мужчины описывают определенные темы. Таким образом, мой вопрос относится к скорости слова, используемой при обсуждении темы, авторы виньетки называют это анализом тематического содержимого, см. Стр. 19.

Реализация кода прошла успешно, и мне удается создатьграфик, аналогичный показанному на рисунке 8 виньетки.

Теперь у меня вопрос: откуда мне знать, является ли статистически значимой разница в словаре, с которой женщины и мужчины описывают темы?

И есть ли способ отобразить это для всех моих тем в одном графике?

Спасибо!

Мой код:

Оценить модель темы

stmContent2 <- stm(out$documents, 
                  out$vocab,
                  K = 80, 
                  prevalence =~ gender,
                  content =~ gender,
                  max.em.its = 75,
                  data = out$meta, 
                  init.type = "Spectral",
                  seed = 8458302)

plot(stmContent2, type = "perspectives", topics = 11)
...