stemDocument в R слишком сильно сокращает некоторые слова.Как это настроить? - PullRequest
0 голосов
/ 10 июня 2018

Я столкнулся с проблемой с функцией stemDocument в R. Как показано в следующих блоках, я правильно использую функцию, и в моих документах нет специальных символов.Код работает хорошо, без предупреждений.Тем не менее, некоторые слова в моем тексте будут вырезаны слишком много.

Например, сбой, переменная, приложение, изменение, популярный, будет преобразован в failur, variabl, application, chang, popul.Я понимаю, что это потому, что функция преобразует слова в их корни, но можем ли мы сделать что-то, чтобы сделать результаты более читабельными, когда мы хотим представить их другим (например, словом может быть цифра)?

Я знаю, что можно завершить корни с помощью функции stemCompletion , но нам все еще нужно вручную указать соответствующий словарь, что утомительно, если в нем слишком много слов.

Мне было интересночто если есть какой-то способ, которым мы можем преобразовать слова с одним и тем же корнем в один, такой как stemDocument, но результат не так прост, как корень: это должно быть слово (например, наиболее часто встречающиеся слова в документе).Буду очень признателен, если кто-нибудь поделится со мной некоторыми идеями.

docs <- Corpus(VectorSource(docs))
# Convert the text to lower case
docs <- tm_map(docs, content_transformer(tolower))
# Remove numbers
docs <- tm_map(docs, removeNumbers)
# Remove english common stopwords
docs <- tm_map(docs, removeWords, stopwords("english"))
# Text stemming
docs <- tm_map(docs, PlainTextDocument) # not necessary
docs <- tm_map(docs, stemDocument)
...