Scrapy и уважение к robots.txt - PullRequest
1 голос
/ 22 марта 2019

Вчера я обнаружил, что Scrapy по умолчанию уважает файл robots.txt (ROBOTSTXT_OBEY = True).

Если я запрашиваю URL с scrapy shell url, и если у меня есть ответ, означает ли это, что url не защищен robots.txt?

1 Ответ

0 голосов
/ 22 марта 2019

В соответствии с документацией, он включен по умолчанию только при создании проекта с помощью команды scrapy startproject, в противном случае должно быть значение по умолчанию False.

https://docs.scrapy.org/en/latest/topics/settings.html#robotstxt-obey https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#topics-dlmw-robots

Отвечая на ваш вопрос, да, команда scrapy shell соответствует robots.txt конфигурации, определенной в settings.py.Если ROBOTSTXT_OBEY = True, при попытке использовать команду scrapy shell для защищенного URL-адреса будет сгенерирован ответ None.

Вы также можете проверить его, передав настройки robots.txt через командную строку:

scrapy shell https://www.netflix.com --set="ROBOTSTXT_OBEY=True"
...