Я пытаюсь удалить одинарные и двойные символьные токены.
вот пример:
toks <- tokens(c("This is a sentence. This is a second sentence."), remove_punct = TRUE)
toks <- tokens_select(toks, min_nchar=1L, max_nchar=2L, selection = "remove")
toks
Результаты:
токены из 1 документа.text1:
[1] "is" "a" "is" "a"
Я ожидаю получить токены, которые не соответствуют критериям, вместо тех, которыевстретиться.