Исключить подкаталог из домена с помощью scrapy - PullRequest
0 голосов
/ 29 ноября 2018

Это мой паук.Это работает хорошо, но я хочу ограничить определенный домен, когда я делаю рекурсивные вызовы.Домен explore.concordia.ca слишком велик и не содержит нужной мне информации.

Однако, паук сканирует explore.concordia.ca в любом случае.Я попытался добавить регулярное выражение [^ explore], но оно тоже не работает.У вас есть идея, как я мог это исправить?

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['https://www.concordia.ca/about.html']
    rules = [Rule(LinkExtractor(), callback='parse', follow=True)]
    allowed_domains = ["concordia.ca"]
    deny_domains = ["explore.concordia.ca"]
...