R text mining - удаление стоп-слов на другом языке вызывает проблемы с aumlet - PullRequest
0 голосов
/ 14 мая 2018

Я начинаю использовать интеллектуальный анализ текста в R.

Я столкнулся с такой проблемой, что при использовании функции tm_map для стоп-слов на другом языке, кроме английского, амулеты не отображаются должным образом.

Пример:

#Test
a<-"Ääkkösiä paljon, että toiminta selviää."
docs <- Corpus(VectorSource(a))
inspect(docs)

# This causes problems:
docs <- tm_map(docs, removeWords, stopwords("finnish"))

dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
d

Whitouth tm_map, это выглядит так:

             word freq
että         että    1
paljon     paljon    1
selviää   selviää    1
toiminta toiminta    1
ääkkösiä ääkkösiä    1

С tm_map результат будет другим. Слово «että» должно быть удалено, потому что это стоп-слово в финском языке. Также здесь рушатся амулеты:

             word freq
kkà          kkà   1
paljon     paljon    1
selvià    selvià   1
sià          sià   1
toiminta toiminta    1
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...