Я пытаюсь выяснить, разрешено ли GoogleNews webscrap - PullRequest
1 голос
/ 25 сентября 2019

Я использую функцию paths_allowed из пакета robotstxt , чтобы выяснить, можно ли скопировать данные с определенного веб-сайта, в моем случае https://news.google.com/?hl=en-IN&gl=IN&ceid=IN%3Aen,, но каждый раз, когда ясделать это, я получаю сообщение об ошибке

library(robotstxt)
paths_allowed(paths = "https://news.google.com/?hl=en-IN&gl=IN&ceid=IN%3Aen")

Сообщение об ошибке выглядит следующим образом:

news.google.com                      Error in if (is_http) { : argument is of length zero

Спасибо.

1 Ответ

0 голосов
/ 25 сентября 2019

Просто используйте пакет httr и отправьте запрос GET на https://news.google.com/robots.txt, чтобы получить необходимую информацию:

a <- httr::GET("https://news.google.com/robots.txt")
httr::content(a)
User-agent: *
Disallow: /
Disallow: /search?
Allow: /$
Allow: /?
Allow: /nwshp$
Allow: /news$
Allow: /news/$
Allow: /news/?gl=
Allow: /news/?hl=
Allow: /news/?ned=
Allow: /about$
Allow: /about?
Allow: /about/
Allow: /topics/
Allow: /publications/
Allow: /stories/
Allow: /swg/

User-agent: Googlebot
Disallow: /topics/
Disallow: /publications/
Disallow: /stories/
...