Как преобразовать новые текстовые данные в предопределенный dfm? - PullRequest
0 голосов
/ 12 июня 2018

Я занимаюсь моделированием темы с помощью пакета topicmodels.Так что я новичок, чтобы разделить данные на набор поездов и набор тестов.Интересно, возможно ли преобразовать тестовые данные в предопределенный объект dfm (генерируемый обучающими данными).

Спасибо

1 Ответ

0 голосов
/ 13 июня 2018

Не только в тематическом моделировании, но и в других прогнозах вне выборки, вы можете использовать dfm_select() с DFM в качестве шаблона, чтобы сделать функции DMF для обучения и набора тестов идентичными.

require(quanteda)
require(topicmodels)

corp_train <- data_corpus_irishbudget2010[1:7]
mt_train <- dfm(corp_train)
lda <- LDA(convert(mt_train, "topicmodels"),  10)

corp_test <- data_corpus_irishbudget2010[8:14]
mt_test <- dfm(corp_test)
mt_test <- dfm_select(mt_test, mt_train) # make the features identical

post <- posterior(lda, mt_test)
apply(post$topic, 1, which.max)
...