Question

Я создаю сканер, который будет проверять, есть ли на веб-сайте URL-адрес с фрагментом «3d-printer» в любом URL-адресе веб-сайта.

Искатель успешно возвращает правильные совпадения. Чего я хотел бы добиться, так это, чтобы сканер остановился на первом «совпадении» и перешел на второй сайт в start_urls .

class CrawlSpider(CrawlSpider):
    name = 'crawl'
    allowed_domains = getWebsites()[1]
    start_urls = getWebsites()[0]

    rules = (
        Rule(LinkExtractor(allow=('3d-printer'), deny=('\?')) , callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        match_url = response.url
        referrer_url = response.request.headers.get('Referer', None)

       item = PrintersItem()
       item['match_url'] = match_url
       item['referrer_url'] = referrer_url
       return item

Остановитесь на первом матче «Следуй» в Scrapy Crawler

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Остановитесь на первом матче «Следуй» в Scrapy Crawler

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов