Я создаю сканер, который будет проверять, есть ли на веб-сайте URL-адрес с фрагментом «3d-printer» в любом URL-адресе веб-сайта.
Искатель успешно возвращает правильные совпадения. Чего я хотел бы добиться, так это, чтобы сканер остановился на первом «совпадении» и перешел на второй сайт в start_urls .
class CrawlSpider(CrawlSpider):
name = 'crawl'
allowed_domains = getWebsites()[1]
start_urls = getWebsites()[0]
rules = (
Rule(LinkExtractor(allow=('3d-printer'), deny=('\?')) , callback='parse_item', follow=True),
)
def parse_item(self, response):
match_url = response.url
referrer_url = response.request.headers.get('Referer', None)
item = PrintersItem()
item['match_url'] = match_url
item['referrer_url'] = referrer_url
return item