При просмотре веб-страниц часть полученного текста была повреждена, очень похоже на чужой текст, когда используется неправильная кодировка. Проблема в том, что кодировка кажется правильной: «UTF-8». Есть ли способ исправить текст, даже если он в правильном формате? Часть кода ниже - проблема, о которой здесь сообщают. Rstudio настроен с кодировкой "UTF-8", а функции, которые изменяют используемую кодировку, всегда возвращают еще больше гиббери sh. Спасибо всем заранее.
library(rvest)
url <- "https://www1.folha.uol.com.br/poder/2020/01/folhas-da-manha-da-tarde-e-da-noite-se-uniram-sob-um-so-titulo-folha-de-spaulo-ha-60-anos.shtml"
title.news <- html_text(read_html(url) %>%
html_nodes('body') %>%
html_nodes('main') %>%
html_nodes('article') %>%
html_nodes('.block') %>%
html_nodes('h1'))
title.news <- trimws(gsub(pattern = '\\s+', ' ', title.news))
Encoding(title.news)
[1] "UTF-8"
title.news
[1] "Folhas da Manhã, da Tarde e da Noite se uniram sob um só tÃtulo, Folha de S.Paulo, há 60 anos"
#Desired Output: Folhas da Manhã, da Tarde e da Noite se uniram sob um só título, Folha de S.Paulo, há 60 anos