Я пытаюсь удалить односимвольные токены из моей матрицы терминов документа, но они продолжают появляться в результатах моего моделирования LDA.
Я попытался создать токены, а затем выбрать только те, у которых длина символов превышает 1, а затем поместить их в DTM.
toks <- tokens(rt, remove_numbers = TRUE, remove_punct = TRUE, remove_symbols = TRUE, remove_url=TRUE)
tokens_select(toks, min_nchar = 2L)
par_dtm <- dfm(toks, remove_punct =TRUE, removeNumbers=TRUE, remove = stopwords("french"), min_nchar = 2L)