Помогает ли robots.txt людям собирать данные? - PullRequest
1 голос
/ 21 марта 2019

Я понимаю, что robots.txt - это файл, который предназначен для "роботов" или, я бы сказал, "автоматизированного сканера". Однако мешает ли он человеку печатать «запрещенную» страницу и собирать данные вручную?

Может быть, это лучше с примером: я не могу просканировать эту страницу:

https://www.drivy.com/search?address=Gare+de+Li%C3%A8ge-Guillemins&address_source=&poi_id=&latitude=50.6251&longitude=5.5659&city_display_name=&start_date=2019-04-06&start_time=06%3A00&end_date=2019-04-07&end_time=06%3A00&country_scope=BE

Могу ли я по-прежнему брать "вручную" через инструмент разработчиков моего веб-браузера файл JSON, содержащий данные?

Ответы [ 2 ]

1 голос
/ 23 марта 2019

На основании оригинальной спецификации robots.txt от 1994 правила в файле robots.txt предназначены только для роботов (жирный акцент):

WWW роботы (также называемые WWW-роботами)странники или пауки) - это программы, которые пересекают многие страницы в World Wide Web путем рекурсивного извлечения связанных страниц.

[…]

Эти инциденты указывают на необходимость создания механизмов для WWW-серверов чтобы указать роботам , какие части их сервера не должны быть доступны.

Итак, роботы - это программы, которые автоматически извлекают документы, связанные / на которые имеются ссылки в других документах.

Если человек извлекает документ (используя браузер или другую программу), или если человек передает список собранных вручную URL-адресов какой-либо программе (и программа не добавляет / не следует ссылкам в извлеченныхдокументы), правила в файле robots.txt не применяются.

FAQ " Что такое робот WWW? " подтверждает это:

Обычная сетьбраузеры не являются роботами, поскольку ими управляет человек, и они не получают автоматически ссылочные документы (кроме встроенных изображений).

1 голос
/ 21 марта 2019

robots.txt - это рекомендации, они не запрещают никому, человеку или машине, получать доступ к любому контенту.

Файл settings.py по умолчанию, сгенерированный для проекта Scrapy, устанавливает ROBOTSTXT_OBEY на True. Вы можете установить его на False, если хотите.

Имейте в виду, что веб-сайты могут использовать меры против соскоба, чтобы тем не менее вы не соскребали эти страницы. Но это совсем другая тема.

...