Question

Я понимаю, что robots.txt - это файл, который предназначен для "роботов" или, я бы сказал, "автоматизированного сканера". Однако мешает ли он человеку печатать «запрещенную» страницу и собирать данные вручную?

Может быть, это лучше с примером: я не могу просканировать эту страницу:

https://www.drivy.com/search?address=Gare+de+Li%C3%A8ge-Guillemins&address_source=&poi_id=&latitude=50.6251&longitude=5.5659&city_display_name=&start_date=2019-04-06&start_time=06%3A00&end_date=2019-04-07&end_time=06%3A00&country_scope=BE

Могу ли я по-прежнему брать "вручную" через инструмент разработчиков моего веб-браузера файл JSON, содержащий данные?

unor · Answer 1 · 23 марта 2019

На основании оригинальной спецификации robots.txt от 1994 правила в файле robots.txt предназначены только для роботов (жирный акцент):

WWW роботы (также называемые WWW-роботами)странники или пауки) - это программы, которые пересекают многие страницы в World Wide Web путем рекурсивного извлечения связанных страниц.

[…]

Эти инциденты указывают на необходимость создания механизмов для WWW-серверов чтобы указать роботам , какие части их сервера не должны быть доступны.

Итак, роботы - это программы, которые автоматически извлекают документы, связанные / на которые имеются ссылки в других документах.

Если человек извлекает документ (используя браузер или другую программу), или если человек передает список собранных вручную URL-адресов какой-либо программе (и программа не добавляет / не следует ссылкам в извлеченныхдокументы), правила в файле robots.txt не применяются.

FAQ " Что такое робот WWW? " подтверждает это:

Обычная сетьбраузеры не являются роботами, поскольку ими управляет человек, и они не получают автоматически ссылочные документы (кроме встроенных изображений).

Gallaecio · Answer 2 · 21 марта 2019

robots.txt - это рекомендации, они не запрещают никому, человеку или машине, получать доступ к любому контенту.

Файл settings.py по умолчанию, сгенерированный для проекта Scrapy, устанавливает ROBOTSTXT_OBEY на True. Вы можете установить его на False, если хотите.

Имейте в виду, что веб-сайты могут использовать меры против соскоба, чтобы тем не менее вы не соскребали эти страницы. Но это совсем другая тема.

Помогает ли robots.txt людям собирать данные?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Помогает ли robots.txt людям собирать данные?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы