Как удалить слова, начинающиеся с цифр, из токенов в quanteda? Примеры слов: 21-е, 80-е, 8-е, 5k, но они могут быть совершенно разными, и я не знаю их заранее.
У меня есть фрейм данных с предложениями engli sh. Я преобразовал его в корпус с помощью Quanteda. Затем я преобразовал корпус в токены и провел некоторую очистку, например remove_punct
, remove_symbols
, remove_numbers
и т. Д. 1010 *. Однако функция remove_numbers
не удаляет слова, начинающиеся с цифр. Я хотел бы удалить такие слова, но я не знаю их точную форму - это может быть, например, 21-е, 22-е и т. Д. c.
library("quanteda")
data = data.frame(
text = c("R is free software and 2k comes with ABSOLUTELY NO WARRANTY.",
"You are welcome to redistribute it under 80s certain conditions.",
"Type 'license()' or 21st 'licence()' for distribution details.",
"R is a collaborative 6th project with many contributors.",
"Type 'contributors()' for more information and",
"'citation()' on how to cite R or R packages in publications."),
stringsAsFactors = FALSE
)
corp = corpus(data, text_field = "text")
toks = tokens(corp, remove_punct = TRUE, remove_symbols = TRUE, remove_numbers = TRUE,
remove_separators = TRUE, split_hyphens = TRUE)
dfmat = dfm(toks, tolower = TRUE, stem = TRUE, remove = stopwords("english"))