Больше стоп-слов с помощью DocumentTermMatrix () - PullRequest
0 голосов
/ 05 августа 2020

В настоящее время я использую функцию DocumentTermMatrix() в R, чтобы соответствовать модели LDA. В дополнение к стоп-словам по умолчанию я хочу добавить свои собственные слова, которые предполагается удалить.

library(tm)
myStopwords <- c("aa", "bb")
dtm <- DocumentTermMatrix(myCorpus,
                           control = list(
                           tolower = TRUE,
                           removePunctuation = TRUE,
                           removeNumbers= TRUE,
                           stemming = FALSE,
                           stopwords = TRUE,
                           minWordLength = 2))

Можно ли мне помочь в том, как добавить мои собственные стоп-слова в приведенный выше код? Спасибо!

1 Ответ

2 голосов
/ 05 августа 2020

Вы можете добавить свои собственные стоп-слова, добавив removeWords = c("aa", "bb") внутри функции DocumentTermMatrix.

library(tm)
myStopwords <- c("aa", "bb")
dtm <- DocumentTermMatrix(myCorpus,
                           control = list(
                           tolower = TRUE,
                           removePunctuation = TRUE,
                           removeNumbers= TRUE,
                           stemming = FALSE,
                           stopwords = TRUE,
                           removeWords = c("aa","bb"),
                           minWordLength = 2))
))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...