CONCURRENT_REQUESTS не делает больше запросов - PullRequest
0 голосов
/ 06 ноября 2018

Я добавил в настройках scrapy:

CONCURRENT_REQUESTS = 8 и DOWNLOAD_DELAY = 1

Так что у меня должно быть 8 * 60 страниц в минуту. Но скрап ведет себя как CONCURRENT_REQUESTS = 1. Он очищает только 60 страниц в минуту.

scrapy bench:

2018-11-05 22:38:03 [scrapy.extensions.logstats] INFO: Crawled 7 pages (at 60 pages/min), scraped 0 items (at 0 items/min)

телнет localthost:6023:

time()-engine.start_time                        : 22.815539360046387
engine.has_capacity()                           : False
len(engine.downloader.active)                   : 16
engine.scraper.is_idle()                        : False
engine.spider.name                              : historic
engine.spider_is_idle(engine.spider)            : False
engine.slot.closing                             : False
len(engine.slot.inprogress)                     : 16
len(engine.slot.scheduler.dqs or [])            : 0
len(engine.slot.scheduler.mqs)                  : 49
len(engine.scraper.slot.queue)                  : 0
len(engine.scraper.slot.active)                 : 0
engine.scraper.slot.active_size                 : 0
engine.scraper.slot.itemproc_size               : 0
engine.scraper.slot.needs_backout()             : False

Неважно, сколько CONCURRENT_REQUESTS Я добавляю, ничего не меняется.

Понятия не имею, как сделать скрап быстрее. Как я могу начать больше CONCURRENT_REQUESTS? В чем причина этой ситуации?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...