Метка темы каждого документа в модели LDA с использованием textmineR - PullRequest
0 голосов
/ 19 мая 2019

Я использую textmineR для подгонки модели LDA к документам, аналогичным https://cran.r -project.org / web / packages / textmineR / vignettes / c_topic_modeling.html .Можно ли получить метку темы для каждого документа в наборе данных?

>library(textmineR)
>data(nih_sample)
> # create a document term matrix 
> dtm <- CreateDtm(doc_vec = nih_sample$ABSTRACT_TEXT,doc_names = 
 nih_sample$APPLICATION_ID, ngram_window = c(1, 2), stopword_vec = 
 c(stopwords::stopwords("en"), stopwords::stopwords(source = "smart")),lower 
 = TRUE, remove_punctuation = TRUE,remove_numbers = TRUE, verbose = FALSE, 
 cpus = 2) 
 >dtm <- dtm[,colSums(dtm) > 2]
 >set.seed(123)
 > model <- FitLdaModel(dtm = dtm, k = 20,iterations = 200,burnin = 
 180,alpha = 0.1, beta = 0.05, optimize_alpha = TRUE, calc_likelihood = 
 TRUE,calc_coherence = TRUE,calc_r2 = TRUE,cpus = 2)

, а затем добавить метки к модели:

 > model$labels <- LabelTopics(assignments = model$theta > 0.05, dtm = dtm, 
   M = 1)

Теперь я хочу метки темы для каждогоиз 100 документов в nih_sample$ABSTRACT_TEXT

...