Порядок ползания в Scrapy - PullRequest
       5

Порядок ползания в Scrapy

2 голосов
/ 05 декабря 2011

Я написал базовый CrawlSpider в области scrapy, но я хочу понять, в каком порядке сканируются URL-адреса - FIFO / LIFO?

Я хочу, чтобы сканер просканировал все ссылки на начальной странице URL-адреса, а затем перешел на другие URL-адреса, которые, похоже, не соответствуют порядку.

Как я могу это сделать?

1 Ответ

9 голосов
/ 05 декабря 2011

http://readthedocs.org/docs/scrapy/en/0.14/faq.html#does-scrapy-crawl-in-breath-first-or-depth-first-order

По умолчанию Scrapy использует очередь LIFO для хранения ожидающих запросов, что в основном означает, что он сканирует в порядке DFO. Этот заказ больше удобно в большинстве случаев. Если вы хотите сканировать в истинном порядке BFO, Вы можете сделать это, установив следующие параметры:

 DEPTH_PRIORITY = 1
 SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue'
 SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue'
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...