Я начинаю использовать интеллектуальный анализ текста в R.
Я столкнулся с такой проблемой, что при использовании функции tm_map для стоп-слов на другом языке, кроме английского, амулеты не отображаются должным образом.
Пример:
#Test
a<-"Ääkkösiä paljon, että toiminta selviää."
docs <- Corpus(VectorSource(a))
inspect(docs)
# This causes problems:
docs <- tm_map(docs, removeWords, stopwords("finnish"))
dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
d
Whitouth tm_map, это выглядит так:
word freq
että että 1
paljon paljon 1
selviää selviää 1
toiminta toiminta 1
ääkkösiä ääkkösiä 1
С tm_map результат будет другим. Слово «että» должно быть удалено, потому что это стоп-слово в финском языке. Также здесь рушатся амулеты:
word freq
kkà kkà 1
paljon paljon 1
selvià selvià 1
sià sià 1
toiminta toiminta 1