Если вы работаете с R
, пакет lda
содержит функцию lexicalize
, которая преобразует необработанный текст в формат lda-c, необходимый для пакета lda
.
example <- c("I am the very model of a modern major general",
"I have a major headache")
corpus <- lexicalize(example, lower=TRUE)
Аналогично, в пакете topicmodels
есть функция dtm2ldaformat
, которая преобразует матрицу терминов документа в формат lda. Вы можете преобразовать простой текстовый документ в матрицу терминов документа, используя пакет tm
, также в R
.
Таким образом, благодаря этим существующим функциям существует большая гибкость при вводе текста в R
для моделирования тем.