Я уже много чего пробовал, может быть, я слепой, но продолжаю получать редкие закодированные символы. Что я могу сделать? Где ошибка в коде? или в настройках?
Кулак это моя сессия информация:
[1] LC_COLLATE=Spanish_Mexico.1252 LC_CTYPE=Spanish_Mexico.1252
[3] LC_MONETARY=Spanish_Mexico.1252 LC_NUMERIC=C
[5] LC_TIME=Spanish_Mexico.1252
#########
my_data <- read_excel("discursosData.xlsx")
text <- my_data$`Discurso Apertura`[1]
corpus <- Corpus(VectorSource(text))
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords("spanish"))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, stripWhitespace)
termDocMat <- TermDocumentMatrix(corpus)
m <- as.matrix(termDocMat)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d,10)
#
И я получаю:
word freq
vamos vamos 18
xico xico 17
quiero quiero 10
campaà campaà 9
venes venes 9
gobierno gobierno 8
manera manera 8
amigo amigo 7
horas horas 7
soà soà 7
Например, "campaÃ" должно быть "campaña", "xico" должно быть "méxico". похоже, когда система находит акценты или «-» меняет их на редкий символ.
Что не так? Помогите мне, пожалуйста. Спасибо