Лемматизация в R - проблема с функцией PlainTextDocument - PullRequest
0 голосов
/ 25 октября 2019

Я получил следующую ошибку при попытке проверить DocumentTermMatrix после выполнения лемматизации в R: нет применимого метода для 'meta', примененного к объекту класса "персонаж"

Я имеюпытался решить эту проблему с помощью функции PlainTextDocument, но, к сожалению, эта функция удаляет метаданные из корпуса, что приводит к следующей ошибке: Ошибка в [.simple_triplet_matrix (x, term, docs): повторные индексы в настоящее время не разрешены.

Это мой код:

corp9 <- Corpus(URISource(files),
               readerControl = list(reader =readPDF))
corp9 <- tm_map(corp9, removePunctuation, ucp = TRUE)
corp9 <- tm_map(corp9, removeNumbers)
corp9 <- tm_map(corp9, content_transformer(tolower))
corp9 <- tm_map(corp9, removeWords, stopwords("en"))
corp9 <- tm_map(corp9, stripWhitespace)
library("textstem")
corp9 <- tm_map(corp9, lemmatize_strings)

corp9 <- tm_map(corp9, PlainTextDocument)

corp.tdm9 <- TermDocumentMatrix(corp9)
inspect(corp.tdm9) 

Буду рад, если кто-нибудь сможет мне помочь! :)

...