У меня есть список стоп-слов, который я хотел бы использовать для удаления определенных фраз из текста:
#dummy text
df2 <- c("hi my name is Ann and code code all the time! However not after that I would like")
mystopwords <- c("hi", "code code", "not after that")
Я использую эту опцию:
myDfm <- df2 %>%
tokens(remove_punct = TRUE, remove_numbers = TRUE, remove_symbols = TRUE) %>%
tokens_remove(pattern = c(stopwords(source = "smart"), mystopwords)) %>%
tokens_wordstem() %>%
tokens_ngrams(n = c(1, 3)) %>%
dfm()
, но когда я проверяюЧастота биграммы или триграммы, которые они не убрали, просто остановилась.
Что-то не так в синтаксисе?