Я пытаюсь создать скребок, который очищает сайт для своих продуктов.Я решил извлечь все ссылки на категории из меню навигации, затем перейти по ним и извлечь все ссылки на товары, которые я позже проанализирую в функции parse_product.Но я не знаю, как лучше всего это сделать.Я борюсь со следующими ссылками на parse_menu и ссылками на дополнительные продукты.Критикуйте мой код, пожалуйста.
class DiorSpider(CrawlSpider):
name = 'newdior'
allowed_domains = ['www.dior.com']
start_urls = ['https://www.dior.com/en_us/']
rules = (
Rule(LinkExtractor(allow=(r'^https?://www.dior.com/en_us',
)), callback='parse_menu'),
Rule(LinkExtractor(allow=(r'^https?://www.dior.com/en_us/products/.*',
)), callback='parse_product'),
)
def parse_menu(self, response):
menu = response.xpath('//a[@class="navigation-item-link"]').extract()
for item in menu:
link = re.compile(r'a class="navigation-item-link" href="([a-zA-Z0-9_/-]*)"').findall(item)
if link:
absolute_url = response.urljoin(link[0])
yield absolute_url
def parse_product(self, response):