преобразовать из множественного числа в единственное число, используя R - PullRequest
0 голосов
/ 04 мая 2018

Как преобразовать множественный текст в единственное число из корпуса, используя R я использую пакет "tm", но не могу найти какую-либо функцию. у меня есть попытка с этой функцией, но это я не могу применить к корпусу.

aggregate.plurals <- function (v) {
  aggro_fen <- function(v, singular, plural) {

    if (! is.na(v[plural])) {
      v[singular] <- v[singular] + v[plural]
      v <- v[-which(names(v) == plural)]
    }
    return(v)
  }
  for (n in names(v)) {
    n_pl <- paste(n, 's', Sep='')
    v <- aggro_fen(v, n, n_pl)
    n_pl <- paste(n, 'es', Sep='')
    v <- aggro_fen(v, n, n_pl)
  }
  return(v)
}

1 Ответ

0 голосов
/ 30 января 2019

Если вы занимаетесь анализом текста, вам может потребоваться преобразование слов в более широком контексте, чем только в единственном, множественном числе. Это может быть остановлено, и вы можете использовать функцию 'stemDocument' из 'SnowballC' непосредственно в tm corpus с функцией 'tm_map'

reut21578 <- system.file("texts", "crude", package = "tm")
reuters <- VCorpus(DirSource(reut21578, mode = "binary"), readerControl = list(reader = readReut21578XMLasPlain))
tm_map(reuters, stemDocument)

источник: вводная документация tm https://cran.r -project.org / web / packages / tm / vignettes / tm.pdf

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...