Question

Вчера я обнаружил, что Scrapy по умолчанию уважает файл robots.txt (ROBOTSTXT_OBEY = True).

Если я запрашиваю URL с scrapy shell url, и если у меня есть ответ, означает ли это, что url не защищен robots.txt?

Marcos · Answer 1 · 22 марта 2019

В соответствии с документацией, он включен по умолчанию только при создании проекта с помощью команды scrapy startproject, в противном случае должно быть значение по умолчанию False.

https://docs.scrapy.org/en/latest/topics/settings.html#robotstxt-obey https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#topics-dlmw-robots

Отвечая на ваш вопрос, да, команда scrapy shell соответствует robots.txt конфигурации, определенной в settings.py.Если ROBOTSTXT_OBEY = True, при попытке использовать команду scrapy shell для защищенного URL-адреса будет сгенерирован ответ None.

Вы также можете проверить его, передав настройки robots.txt через командную строку:

scrapy shell https://www.netflix.com --set="ROBOTSTXT_OBEY=True"

Scrapy и уважение к robots.txt

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scrapy и уважение к robots.txt

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы