Проблема с получением кодировки URL-адреса в R - PullRequest
0 голосов
/ 05 мая 2020

Я безуспешно пытаюсь выполнить следующий код.

library(XML)
library(httr)

l <- 'https://www1.folha.uol.com.br/educacao/2020/05/para-volta-as-aulas-escolas-propoem-medicao-de-temperatura-sapato-extra-e-uso-de-mascara.shtml'

h <- GET(l, config = httr::config(ssl_verifypeer = FALSE))
content(h)

No encoding supplied: defaulting to UTF-8.
Error in read_xml.raw(x, encoding = encoding, ..., as_html = TRUE, options = options) : 
  Input is not proper UTF-8, indicate encoding !
Bytes: 0xE7 0xE3 0x6F 0x20 [9]

 xpath <-  paste0(
      "//div[@class='text ']/p|",
      "//div[@class='c-news__body' or @class='c-news__content']//p|",
      "//div[@class='c-news__body' or @class='c-news__content']//li|",
      "//div[@class='j-paywall news__content js-news-content js-disable",
      "-copy js-tweet-selection']//p|",
      "//div[@class='j-paywall news__content js-news-content js-disable",
      "-copy js-tweet-selection']//li"
    )    
 xpathSApply(htmlParse(content(h, encoding = "latin1")), xpath, xmlValue)
[...]
"\n      Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.\n    


Я попытался изменить кодировку для windows -1252, iso-8859-1, latin1 et c .. ..но ничего не работает. Я также пытался использовать RCurl, но снова безуспешно.

Кто-нибудь может мне помочь?

...