Я пытаюсь использовать LDA с триграммами вместо отдельных слов.По сути, я рассматриваю триграмму как одно слово.Я должен следующий код ниже.
MD_notes_phrases <- MD_notes %>%
group_by(status) %>%
unnest_tokens(trigram, text, token = "ngrams", n = 3) %>%
separate(trigram, c("word1", "word2", "word3"), sep = " ") %>%
filter(!word1 %in% stop_words$word,
!word1 %in% removedWords$word,
!word2 %in% stop_words$word,
!word2 %in% removedWords$word,
!word3 %in% stop_words$word,
!word3 %in% removedWords$word) %>%
mutate(phrase = paste(word1,word2,word3,sep = " "))
DTM <- MD_notes_phrases %>%
cast_dtm(document = status,term = phrase,n)
Однако, когда я пытаюсь создать матрицу терминов документа с помощью функции cast_dtm, я получаю следующую ошибку:
Error in .M.kind(x) : not yet implemented for matrix with typeof NULL
Любая помощь приветствуется.Я заранее прошу прощения, если это проблема методологии, а не кода.