TermDocumentMatrix Ошибка редких символов (испанский) - PullRequest
0 голосов
/ 16 ноября 2018

Я уже много чего пробовал, может быть, я слепой, но продолжаю получать редкие закодированные символы. Что я могу сделать? Где ошибка в коде? или в настройках?

Кулак это моя сессия информация:

[1] LC_COLLATE=Spanish_Mexico.1252  LC_CTYPE=Spanish_Mexico.1252   
[3] LC_MONETARY=Spanish_Mexico.1252 LC_NUMERIC=C                   
    [5] LC_TIME=Spanish_Mexico.1252



#########
my_data <- read_excel("discursosData.xlsx")
text <- my_data$`Discurso Apertura`[1]
corpus <- Corpus(VectorSource(text))
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords("spanish"))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, stripWhitespace)
termDocMat <- TermDocumentMatrix(corpus)
m <- as.matrix(termDocMat)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d,10)
#

И я получаю:

word freq
vamos       vamos   18
xico         xico   17
quiero     quiero   10
campaà    campaà   9
venes       venes    9
gobierno gobierno    8
manera     manera    8
amigo       amigo    7
horas       horas    7
soà          soà   7

Например, "campaÃ" должно быть "campaña", "xico" должно быть "méxico". похоже, когда система находит акценты или «-» меняет их на редкий символ.

Что не так? Помогите мне, пожалуйста. Спасибо

...