Question

Я получил следующую ошибку при попытке проверить DocumentTermMatrix после выполнения лемматизации в R: нет применимого метода для 'meta', примененного к объекту класса "персонаж"

Я имеюпытался решить эту проблему с помощью функции PlainTextDocument, но, к сожалению, эта функция удаляет метаданные из корпуса, что приводит к следующей ошибке: Ошибка в [.simple_triplet_matrix (x, term, docs): повторные индексы в настоящее время не разрешены.

Это мой код:

corp9 <- Corpus(URISource(files),
               readerControl = list(reader =readPDF))
corp9 <- tm_map(corp9, removePunctuation, ucp = TRUE)
corp9 <- tm_map(corp9, removeNumbers)
corp9 <- tm_map(corp9, content_transformer(tolower))
corp9 <- tm_map(corp9, removeWords, stopwords("en"))
corp9 <- tm_map(corp9, stripWhitespace)
library("textstem")
corp9 <- tm_map(corp9, lemmatize_strings)

corp9 <- tm_map(corp9, PlainTextDocument)

corp.tdm9 <- TermDocumentMatrix(corp9)
inspect(corp.tdm9)

Буду рад, если кто-нибудь сможет мне помочь! :)

Лемматизация в R - проблема с функцией PlainTextDocument

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Лемматизация в R - проблема с функцией PlainTextDocument

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы