Я использую пакет TextmineR , чтобы найти наиболее похожие документы для данного списка документов. Я использовал следующий код для генерации тсм не дтм
tcm <- CreateTcm(doc_vec = text_df$Description,
skipgram_window = 20,
verbose = FALSE,
cpus = 2)
Который используется для подбора модели lda:
# note the number of topics is arbitrary here
# see extensions for more info
model <- FitLdaModel(dtm = tcm,
k = 25,
iterations = 200, # I usually recommend at least 500 iterations or more
burnin = 180,
alpha = 0.1,
beta = 0.05,
optimize_alpha = TRUE,
calc_likelihood = TRUE,
calc_coherence = TRUE,
calc_r2 = TRUE,
cpus = 2)
Теперь параметр модели theta здесь генерирует загрузку слов по темам, а не загрузку документов по темам. Я хочу получить номер документа при загрузке документа по теме. Помогите, пожалуйста, предложить метод для получения распределения документа по теме из этой модели при передаче матрицы совпадений сроков.
Я попытался выполнить обратное соединение, чтобы получить номер документа при загрузке документа по теме, но безуспешно в соответствии с рекомендациями, приведенными в https://cran.r -project.org / web / packages / textmineR / vignettes / d_text_embeddings .html