Получение загрузки документа по теме с использованием пакета TextmineR путем передачи матрицы совпадений терминов - PullRequest
0 голосов
/ 20 января 2019

Я использую пакет TextmineR , чтобы найти наиболее похожие документы для данного списка документов. Я использовал следующий код для генерации тсм не дтм

tcm <- CreateTcm(doc_vec = text_df$Description,
                 skipgram_window = 20,
                 verbose = FALSE,
                 cpus = 2)

Который используется для подбора модели lda:

# note the number of topics is arbitrary here
# see extensions for more info


model <- FitLdaModel(dtm = tcm, 
                     k = 25,
                     iterations = 200, # I usually recommend at least 500 iterations or more
                     burnin = 180,
                     alpha = 0.1,
                     beta = 0.05,
                     optimize_alpha = TRUE,
                     calc_likelihood = TRUE,
                     calc_coherence = TRUE,
                     calc_r2 = TRUE,
                     cpus = 2) 



Теперь параметр модели theta здесь генерирует загрузку слов по темам, а не загрузку документов по темам. Я хочу получить номер документа при загрузке документа по теме. Помогите, пожалуйста, предложить метод для получения распределения документа по теме из этой модели при передаче матрицы совпадений сроков.

Я попытался выполнить обратное соединение, чтобы получить номер документа при загрузке документа по теме, но безуспешно в соответствии с рекомендациями, приведенными в https://cran.r -project.org / web / packages / textmineR / vignettes / d_text_embeddings .html

...