Передайте параметр user_agent () в read_ html () - PullRequest
0 голосов
/ 02 марта 2020

Я не понимаю, как передать пользовательский агент в read_ html ().

Этот ответ рекомендует следующий код:

library(httr)
library(rvest)
parse_rvest <- html(myurl, user_agent("myagent"))

Дополнительно , Я понимаю, что html () теперь заменен read_ html (). Однако следующий код:

parse_rvest <- read_html("http://testing-ground.scraping.pro/", 
                      user_agent("Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:73.0) Gecko/20100101 Firefox/73.0"))

возвращает ошибку:

Error in doc_parse_raw(x, encoding = encoding, base_url = base_url, as_html = as_html,  : 
  Expecting a single string value: [type=list; extent=7].

1 Ответ

1 голос
/ 02 марта 2020

Ты почти у цели. Вам нужно сделать user_agent = "user agent", а не user_agent("user-agent")

Вот пример для демонстрации:

library(httr)
library(rvest)
#> Loading required package: xml2

parse_rvest <- read_html("http://testing-ground.scraping.pro/", 
                      user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:73.0) Gecko/20100101 Firefox/73.0")
parse_rvest
#> {html_document}
#> <html class="no-js">
#> [1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8 ...
#> [2] <body>\n\t\t<script type="text/javascript">\n\t\t\n\t\t  var _gaq = _gaq  ...

Создано в 2020-03-02 пакетом представ. (v0.3.0)

...