Я новичок в Scrapy и читаю Learning Scrapy для учебы, и у меня есть вопрос по поводу порядка чистки.
В книге представлен фрагмент кода:
rules = (
Rule(LinkExtractor(restrict_xpaths='//*[contains(@class,"next")]')),
Rule(LinkExtractor(restrict_xpaths='//*[@itemprop="url"]'),
callback='parse_item')
)
И там сказано, что Scrapy использует стратегию LIFO для ползания.Поэтому я предполагаю, что первым элементом должен быть элемент на последней странице, но оказывается, что первый элемент находится на первой странице.
Почему?Согласно коду, я думаю, что Scrapy будет следовать первому правилу, пока не найдет последнюю страницу, а затем начнет анализировать элементы на последней странице.Я в замешательстве.
А если у сайта миллионы страниц, Scrapy не будет анализировать какие-либо элементы, пока не достигнет последней страницы?