Я сканирую сайт, который может содержать много start_urls
, например:
http://www.a.com/list_1_2_3.htm
Я хочу заполнить start_urls
как [list_\d+_\d+_\d+\.htm]
,
и извлекать элементы из URL, например, [node_\d+\.htm]
во время сканирования.
Могу ли я использовать CrawlSpider
для реализации этой функции?
И как я могу генерировать start_urls
динамически при сканировании?