как назначить повторные темы через LDA в R с помощью пакета "textmineR" для указанных документов c - PullRequest
0 голосов
/ 25 февраля 2020

У меня 787 документов (речь - текстовый файл). Используя пакет «textmineR», я получил те же темы. У меня есть 3 темы, как показано ниже:

 topic label      coherence   prevalence    top_terms
 t_1   policy     0.092       37.374        policy, inflation, monetary, rate, federal, economic
 t_2   financial  0.030       37.677        financial, banks, risk, capital, market, not
 t_3   community  0.004       24.949        community, federal, reserve, more, return, mortgage 

Может кто-нибудь подсказать, как назначить каждую топику c соответствующему документу? и создайте таблицу данных для того же:

Document Number          Topic
1                           t_1

и т. д.

Ответы [ 2 ]

0 голосов
/ 30 марта 2020

Рад, что вы нашли решение самостоятельно, и извините, я не видел его раньше.

Если вам нужно назначить темы для новых документов, вы также можете использовать predict.

Вот воспроизводимый пример использования вашего решения и predict.

library(textmineR)

# 'mycorpus' and `newcorpus` are disjoint character vectors of documents
mycorpus <- nih_sample$ABSTRACT_TEXT

newcorpus <- nih_sample$PROJECT_TITLE

# create a document term matrix for training
dtm <- CreateDtm(mycorpus)

# train an LDA topic model
lda <- FitLdaModel(dtm, k = 10, iterations = 200, burnin = 150)

# get the topic document assignments for your training data
lda$theta

# create a new document term matrix for new documents
new_dtm <- CreateDtm(newcorpus)

# predict handles vocabulary (mis)alignment for you
new_theta <- predict(lda, new_dtm, iterations = 200, burnin = 150)

0 голосов
/ 28 февраля 2020

нашел его, можно использовать тэта-матрицу, сгенерированную в результате fitLDAmodel. это значение каждой темы c в каждой речи (документе).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...