getURL не работает для одной ссылки (и это работало раньше) - PullRequest
0 голосов
/ 25 августа 2018

Я использовал getURL и htmlTreeParse, чтобы выполнить webscraping с помощью следующего кода:

library(XML)
library(rvest)
library(httr)
library(RCurl)
url="https://www.restaurants.mcdonalds.fr/"

page = htmlTreeParse(getURL(url),useInternal = TRUE,encoding="utf8")
locs = unlist(xpathApply(page, '//div[@class="department-part"]/ul/li/a', 
   xmlGetAttr,"href"))

Однако по некоторым причинам этот код больше не работает. И в getURL(url) кажется, что я могу получить весь исходный код.

url="https://www.restaurants.mcdonalds.fr/"
read_html(url) %>%
html_nodes(xpath='//div[@class="department-part"]/ul/li/a') %>%
  html_text()

Я также пытался rvest, и, похоже, read_html тоже не работает. Принимая во внимание, что я могу просматривать исходный код, например, с Chrome.

Я также проверил другую ссылку.

url="https://restaurant.hippopotamus.fr/"
read_html(url) # works
getURL(url) # doesn't work and it did work before

Как я могу попытаться найти решение?

...