Я пытаюсь сканировать сайты очень простым способом.Но Scrapy не сканирует все ссылки.Я объясню сценарий следующим образом -
main_page.html -> содержит ссылки на a_page.html, b_page.html, c_page.htmla_page.html -> содержит ссылки на a1_page.html, a2_page.htmlb_page.html -> содержит ссылки на b1_page.html, b2_page.htmlc_page.html -> содержит ссылки на c1_page.html, c2_page.htmla1_page.html -> содержит ссылку на b_page.htmla2_page.html -> содержит ссылку на c_page.htmlb1_page.html -> содержит ссылку на a_page.htmlb2_page.html -> содержит ссылку на c_page.htmlc1_page.html -> содержит ссылку на a_page.htmlc2_page.html -> содержит ссылку на main_page.html
Я использую следующее правило в CrawlSpider -
Rule(SgmlLinkExtractor(allow = ()), callback = 'parse_item', follow = True))
Но результаты сканирования выглядят следующим образом -
ОТЛАДКА: Сканировано(200) http://localhost/main_page.html> (реферер: нет) 2011-12-05 09: 56: 07 + 0530 [test_spider] ОТЛАДКА: Сканировано (200) http://localhost/a_page.html> (реферер: http://localhost/main_page.html) 2011-12-05 09: 56: 07 + 0530 [test_spider] ОТЛАДКА: Сканировано (200) http://localhost/a1_page.html> (реферер: http://localhost/a_page.html) 2011-12-05 09: 56: 07 + 0530 [test_spider] ОТЛАДКА: Сканировано (200) http://localhost/b_page.html> (реферир: http://localhost/a1_page.html) 2011-12-05 09: 56: 07 + 0530 [test_spider] ОТЛАДКА: Сканировано (200) http://localhost/b1_page.html> (реферер: http://localhost/b_page.html) 2011-12-05 09:56: 07 + 0530 [test_spider] ИНФОРМАЦИЯ: Закрывающий паук (готово)
Не сканируются все страницы.
Примечание: я выполнил сканирование в BFO, как былоуказано в Scrapy Doc.
Чего мне не хватает?