Какой самый простой способ для скраперов Scrapy уважать Crawl-Delay в robots.txt? - PullRequest
3 голосов
/ 05 декабря 2011

Есть ли параметр, который я могу переключить, или DownloaderMiddleware, который я могу использовать, который будет принудительно устанавливать параметр Crawl-Delay в robots.txt?Если нет, как я могу применить ограничение скорости в скребке?

Ответы [ 2 ]

0 голосов
/ 12 февраля 2019

Существует запрос функции ( # 892 ) для поддержки этого в Scrapy, но в настоящее время он не реализован.

Однако # 892 содержит ссылку на фрагмент кода, который можно использовать в качестве отправной точки для создания собственной реализации.

Если вы это делаете, и вы готовы к выполнению задачи, рассмотрите возможность отправки запроса на включение в Scrapy для интеграции ваших изменений.

0 голосов
/ 05 декабря 2011

Паук может или не может учитывать задержку сканирования в файле robots.txt, парсировать robots.txt для ботов не обязательно!

Вы можете использовать брандмауэр, который запретит ip, который агрессивно сканирует вваш сайт.

Знаете ли вы, какие боты доставляют вам неприятности?Google Bot или другие крупные поисковые системы используют ботов, которые стараются не переполнять ваш сервер.

...