Я безуспешно пытаюсь выполнить следующий код.
library(XML)
library(httr)
l <- 'https://www1.folha.uol.com.br/educacao/2020/05/para-volta-as-aulas-escolas-propoem-medicao-de-temperatura-sapato-extra-e-uso-de-mascara.shtml'
h <- GET(l, config = httr::config(ssl_verifypeer = FALSE))
content(h)
No encoding supplied: defaulting to UTF-8.
Error in read_xml.raw(x, encoding = encoding, ..., as_html = TRUE, options = options) :
Input is not proper UTF-8, indicate encoding !
Bytes: 0xE7 0xE3 0x6F 0x20 [9]
xpath <- paste0(
"//div[@class='text ']/p|",
"//div[@class='c-news__body' or @class='c-news__content']//p|",
"//div[@class='c-news__body' or @class='c-news__content']//li|",
"//div[@class='j-paywall news__content js-news-content js-disable",
"-copy js-tweet-selection']//p|",
"//div[@class='j-paywall news__content js-news-content js-disable",
"-copy js-tweet-selection']//li"
)
xpathSApply(htmlParse(content(h, encoding = "latin1")), xpath, xmlValue)
[...]
"\n Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.\n
Я попытался изменить кодировку для windows -1252, iso-8859-1, latin1 et c .. ..но ничего не работает. Я также пытался использовать RCurl, но снова безуспешно.
Кто-нибудь может мне помочь?