Есть ли способ детокенизации текста в R? - PullRequest
0 голосов
/ 14 июня 2019

Я пытаюсь отменить замену текста после запуска сценария леммации. Есть ли способ детокенизации моего сценария в R?

Я пытался использовать "tokens_compound", но получаю ошибку.

#########Dictionary Lemmazation##################
# extract the contents from text file

tab <- read.delim("/Users/Bryan.M/Desktop/lemmatization-en.txt", 
encoding = "UTF-8", header=FALSE, stringsAsFactors = FALSE)

names(tab) <- c("stem", "term")
stem_list <- function(term) {
    i <- match(term, tab$term)
      if (is.na(i)) {
    stem <- term
      } else {
    stem <- tab$stem[[i]]
  }
  stem
}

corpus::text_tokens(data$text, stemmer = stem_list)
stem_list2 <- corpus::new_stemmer(tab$term, tab$stem)
corpus::text_tokens(data$text, stemmer = stem_list2)

tokens_compund(corpus::text_tokens(data$QOE_rev, stemmer = stem_list))

Ошибка в tokens_compound.default (corpus :: text_tokens (data $ QOE_rev, stemmer = stem_list)): tokens_compound () работает только с объектами токенов.

Я ожидаю, что вывод не будет разбит на токены, а лемматизированные слова заменят другие слова.

...