Я добавил в настройках scrapy:
CONCURRENT_REQUESTS = 8
и DOWNLOAD_DELAY = 1
Так что у меня должно быть 8 * 60 страниц в минуту. Но скрап ведет себя как CONCURRENT_REQUESTS = 1
. Он очищает только 60 страниц в минуту.
scrapy bench
:
2018-11-05 22:38:03 [scrapy.extensions.logstats] INFO: Crawled 7 pages (at 60 pages/min), scraped 0 items (at 0 items/min)
телнет localthost:6023
:
time()-engine.start_time : 22.815539360046387
engine.has_capacity() : False
len(engine.downloader.active) : 16
engine.scraper.is_idle() : False
engine.spider.name : historic
engine.spider_is_idle(engine.spider) : False
engine.slot.closing : False
len(engine.slot.inprogress) : 16
len(engine.slot.scheduler.dqs or []) : 0
len(engine.slot.scheduler.mqs) : 49
len(engine.scraper.slot.queue) : 0
len(engine.scraper.slot.active) : 0
engine.scraper.slot.active_size : 0
engine.scraper.slot.itemproc_size : 0
engine.scraper.slot.needs_backout() : False
Неважно, сколько CONCURRENT_REQUESTS
Я добавляю, ничего не меняется.
Понятия не имею, как сделать скрап быстрее. Как я могу начать больше CONCURRENT_REQUESTS
? В чем причина этой ситуации?