Я использую функцию paths_allowed из пакета robotstxt , чтобы выяснить, можно ли скопировать данные с определенного веб-сайта, в моем случае https://news.google.com/?hl=en-IN&gl=IN&ceid=IN%3Aen,, но каждый раз, когда ясделать это, я получаю сообщение об ошибке
library(robotstxt) paths_allowed(paths = "https://news.google.com/?hl=en-IN&gl=IN&ceid=IN%3Aen")
Сообщение об ошибке выглядит следующим образом:
news.google.com Error in if (is_http) { : argument is of length zero
Спасибо.
Просто используйте пакет httr и отправьте запрос GET на https://news.google.com/robots.txt, чтобы получить необходимую информацию:
httr
GET
https://news.google.com/robots.txt
a <- httr::GET("https://news.google.com/robots.txt") httr::content(a) User-agent: * Disallow: / Disallow: /search? Allow: /$ Allow: /? Allow: /nwshp$ Allow: /news$ Allow: /news/$ Allow: /news/?gl= Allow: /news/?hl= Allow: /news/?ned= Allow: /about$ Allow: /about? Allow: /about/ Allow: /topics/ Allow: /publications/ Allow: /stories/ Allow: /swg/ User-agent: Googlebot Disallow: /topics/ Disallow: /publications/ Disallow: /stories/