Это мой паук.Это работает хорошо, но я хочу ограничить определенный домен, когда я делаю рекурсивные вызовы.Домен explore.concordia.ca
слишком велик и не содержит нужной мне информации.
Однако, паук сканирует explore.concordia.ca
в любом случае.Я попытался добавить регулярное выражение [^ explore], но оно тоже не работает.У вас есть идея, как я мог это исправить?
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = ['https://www.concordia.ca/about.html']
rules = [Rule(LinkExtractor(), callback='parse', follow=True)]
allowed_domains = ["concordia.ca"]
deny_domains = ["explore.concordia.ca"]