Как я могу удалить односимвольные токены в DTM в R? - PullRequest
0 голосов
/ 26 июня 2019

Я пытаюсь удалить односимвольные токены из моей матрицы терминов документа, но они продолжают появляться в результатах моего моделирования LDA.

Я попытался создать токены, а затем выбрать только те, у которых длина символов превышает 1, а затем поместить их в DTM.

toks <- tokens(rt, remove_numbers = TRUE, remove_punct = TRUE, remove_symbols = TRUE, remove_url=TRUE)

tokens_select(toks, min_nchar = 2L)

par_dtm <- dfm(toks, remove_punct =TRUE, removeNumbers=TRUE, remove = stopwords("french"), min_nchar = 2L)
...