Я использовал пакеты как quanteda, так и stm. Первый помогает мне
Предварительная обработка данных, и я сделал тему моделирования со вторыми пакетами.
Когда я пытаюсь использовать функцию findhowts, я нахожу следующие ошибки:
Error in if (!is.null(texts) && length(texts) != nrow(theta)) stop("Number of
provided texts and number of documents modeled do not match") :
missing value where TRUE/FALSE needed
Я думаю, это потому, что я удалил пустые строки из моего исходного текста
используя следующую команду
text <- rs[complete.cases(data), ]
и использование разреженности = 0,99, что также удаляет некоторые менее используемые слова.
Таким образом, исходный текст и новый текст не совпадают.
Тем не менее, я не знаю, как я могу получить новый текстовый файл после dfm
функционировать?
В воспроизводимом примере (не мои собственные данные), если мы предположим, что в тексте отсутствуют значения,
Можете ли вы помочь мне получить текст после функции dfm.
library(stm)
library(quanteda)
data <- corpus(gadarian, text_field = 'open.ended.response')
docvars(data)$text <- texts(data)
data <- dfm(data, stem = TRUE, remove = stopwords('english'),
remove_punct = TRUE) %>% dfm_trim(min_count = 2)
out <- convert(data, to = 'stm')
gadarian_3 <- stm(documents = out$documents,
vocab = out$vocab,
data = out$meta,
prevalence = ~ treatment + s(pid_rep),
K = 10, verbose = FALSE)
outputFit <- gadarian_3$runout[[1]]
thoughts1<-findThoughts(gadarian_3, texts=textdata , n=10, topics=1)$docs[[1]]