Вчера я обнаружил, что Scrapy по умолчанию уважает файл robots.txt (ROBOTSTXT_OBEY = True).
ROBOTSTXT_OBEY = True
Если я запрашиваю URL с scrapy shell url, и если у меня есть ответ, означает ли это, что url не защищен robots.txt?
scrapy shell url
url
В соответствии с документацией, он включен по умолчанию только при создании проекта с помощью команды scrapy startproject, в противном случае должно быть значение по умолчанию False.
scrapy startproject
False
https://docs.scrapy.org/en/latest/topics/settings.html#robotstxt-obey https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#topics-dlmw-robots
Отвечая на ваш вопрос, да, команда scrapy shell соответствует robots.txt конфигурации, определенной в settings.py.Если ROBOTSTXT_OBEY = True, при попытке использовать команду scrapy shell для защищенного URL-адреса будет сгенерирован ответ None.
scrapy shell
robots.txt
settings.py
None
Вы также можете проверить его, передав настройки robots.txt через командную строку:
scrapy shell https://www.netflix.com --set="ROBOTSTXT_OBEY=True"