Question

Я написал базовый CrawlSpider в области scrapy, но я хочу понять, в каком порядке сканируются URL-адреса - FIFO / LIFO?

Я хочу, чтобы сканер просканировал все ссылки на начальной странице URL-адреса, а затем перешел на другие URL-адреса, которые, похоже, не соответствуют порядку.

Как я могу это сделать?

Acorn · Answer 1 · 05 декабря 2011

http://readthedocs.org/docs/scrapy/en/0.14/faq.html#does-scrapy-crawl-in-breath-first-or-depth-first-order

По умолчанию Scrapy использует очередь LIFO для хранения ожидающих запросов, что в основном означает, что он сканирует в порядке DFO. Этот заказ больше удобно в большинстве случаев. Если вы хотите сканировать в истинном порядке BFO, Вы можете сделать это, установив следующие параметры:

 DEPTH_PRIORITY = 1
 SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue'
 SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue'

Порядок ползания в Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Порядок ползания в Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов