Что может заставить `decapitated :: chrome_read_html` открыть окно chrome и вернуть полное html вместо xml (как read_ html из rvest)? - PullRequest
0 голосов
/ 18 июня 2020

Я следовал официальным инструкциям по установке и использованию пакета decapitated, но он не работает. Когда я запускаю chrome_version() или chrome_read_html(), открывается окно chrome, и код запускается, пока я не закрою окно (я был терпелив в течение 15 минут). Когда я закрываю окно, chrome_read_html() возвращает полный html, а не xml -документ, как должен (https://rdrr.io/github/hrbrmstr/decapitated/f/README.md).

library(decapitated)
packageVersion("decapitated")
#[1] ‘0.3.0’
download_chromium("R")
#Downloading https://storage.googleapis.com/chromium-browser-snapshots/Win_x64/579032/chrome-win32.zip
#trying URL 'https://storage.googleapis.com/chromium-browser-snapshots/Win_x64/579032/chrome-win32.zip'
#Content type 'application/x-zip-compressed' length 133893771 bytes (127.7 MB)
#downloaded 127.7 MB

#Please set the HEADLESS_CHROME environment variable to:
 # 'R/chrome-win32/chrome.exe'

#This value has also been returned invisibly.
Sys.setenv(HEADLESS_CHROME =  "R/chrome-win32/chrome.exe")
chrome_version()

chrome_read_html("http://httpbin.org/",work_dir="R/decapitated",render=TRUE)
#{html_document}
#<html lang="en">
#[1] <head>\n<meta http-equiv="Content-Type" content="text/html; chars ...
#[2] <body>\r\n    <a href="https://github.com/requests/httpbin" class ...

Есть ли у кого-нибудь идея, в чем проблема и как я могу ее решить?

(PS: я также пробовал код и веб-сайт, используемые в https://community.rstudio.com/t/webscarping-rvest-output-list-of-0/29625/2 (см. Сообщение cderv the 2019-05- 01):

url <- "https://sofifa.com/player/230621"
html <- chrome_read_html(url)
html %>% 
  html_nodes("#version-jump > option") %>%
  length()
#> [1] 295

, который должен вернуть «[1] 295», но в моем случае возвращает «[1] 1».)

...