Question

Я начинаю использовать интеллектуальный анализ текста в R.

Я столкнулся с такой проблемой, что при использовании функции tm_map для стоп-слов на другом языке, кроме английского, амулеты не отображаются должным образом.

Пример:

#Test
a<-"Ääkkösiä paljon, että toiminta selviää."
docs <- Corpus(VectorSource(a))
inspect(docs)

# This causes problems:
docs <- tm_map(docs, removeWords, stopwords("finnish"))

dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
d

Whitouth tm_map, это выглядит так:

             word freq
että         että    1
paljon     paljon    1
selviää   selviää    1
toiminta toiminta    1
ääkkösiä ääkkösiä    1

С tm_map результат будет другим. Слово «että» должно быть удалено, потому что это стоп-слово в финском языке. Также здесь рушатся амулеты:

             word freq
kkÃ           kkÃ    1
paljon     paljon    1
selviÃ     selviÃ    1
siÃ           siÃ    1
toiminta toiminta    1

R text mining - удаление стоп-слов на другом языке вызывает проблемы с aumlet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

R text mining - удаление стоп-слов на другом языке вызывает проблемы с aumlet

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы