robots.txt
- это рекомендации, они не запрещают никому, человеку или машине, получать доступ к любому контенту.
Файл settings.py
по умолчанию, сгенерированный для проекта Scrapy, устанавливает ROBOTSTXT_OBEY
на True
. Вы можете установить его на False
, если хотите.
Имейте в виду, что веб-сайты могут использовать меры против соскоба, чтобы тем не менее вы не соскребали эти страницы. Но это совсем другая тема.