Scrapy: как остановить CrawlSpider после 100 запросов - PullRequest
0 голосов
/ 11 июля 2020

Я хотел бы ограничить количество страниц, которые CrawlSpider посещает на веб-сайте.

Как я могу остановить Scrapy CrawlSpider после 100 запросов?

1 Ответ

2 голосов
/ 11 июля 2020

Я считаю, что вы можете использовать для этого расширение closespider с настройкой CLOSESPIDER_PAGECOUNT. Согласно docs :

... указывает максимальное количество ответов на сканирование. Если паук ползет больше, паук будет закрыт по причине closespider_pagecount

Все, что вам нужно сделать, это указано в ваших настройках. Py:

CLOSESPIDER_PAGECOUNT = 100 

Если это вам не подходит, другой подход может заключаться в написании собственного расширения с использованием модуля Scrapy stats для отслеживания количества запросов.

...