Это будет работать. Сначала я добавил stringAsFactors = FALSE
в data.frame. Текст, предоставленный tokens
, должен быть символьным вектором, а не фактором. Затем я изменил remove =
из вашего кода, потому что это должно быть pattern =
. Наконец, часть ngram должна быть в функции dfm
, а не в функции token_remove
.
При вложении функций лучше отформатировать код немного больше. Немного лучше показывает, где могут быть допущены возможные ошибки.
library(quanteda)
df <- data.frame(data = c("Here is an example text and why I write it",
"I can explain and here you but I can help as I would like to help"),
stringsAsFactors = FALSE)
mystopwords <- c("is","an")
corpus <- dfm(tokens_remove(tokens(df$data,
remove_punct = TRUE,
remove_numbers = TRUE,
remove_symbols = TRUE),
pattern = c(stopwords(language = "el", source = "misc"),
mystopwords)
),
ngrams = c(4,6)
)