Я пытаюсь отменить замену текста после запуска сценария леммации. Есть ли способ детокенизации моего сценария в R?
Я пытался использовать "tokens_compound", но получаю ошибку.
#########Dictionary Lemmazation##################
# extract the contents from text file
tab <- read.delim("/Users/Bryan.M/Desktop/lemmatization-en.txt",
encoding = "UTF-8", header=FALSE, stringsAsFactors = FALSE)
names(tab) <- c("stem", "term")
stem_list <- function(term) {
i <- match(term, tab$term)
if (is.na(i)) {
stem <- term
} else {
stem <- tab$stem[[i]]
}
stem
}
corpus::text_tokens(data$text, stemmer = stem_list)
stem_list2 <- corpus::new_stemmer(tab$term, tab$stem)
corpus::text_tokens(data$text, stemmer = stem_list2)
tokens_compund(corpus::text_tokens(data$QOE_rev, stemmer = stem_list))
Ошибка в tokens_compound.default (corpus :: text_tokens (data $ QOE_rev,
stemmer = stem_list)):
tokens_compound () работает только с объектами токенов.
Я ожидаю, что вывод не будет разбит на токены, а лемматизированные слова заменят другие слова.