Правила Scrapy CrawlSpider и LinkExtractor следуют всем ссылкам на странице, соответствующей / path /? - PullRequest
0 голосов
/ 20 апреля 2020

я хочу перейти по всем ссылкам на странице https://whitney.org/exhibitions/2012-biennial, содержащим / 2012-биеннале /

я попробовал

class SpiderSpider(CrawlSpider): name = "whit" start_urls = ['https://whitney.org/exhibitions/2012-biennial'] rules = [Rule(LinkExtractor(allow='2012-biennial/.*'), callback='parse', follow=True)]

и он просто разбирает начальный URL. Есть несколько ссылок, таких как / 2012-biennial / some-artist, по которым я хочу перейти и разобрать. Я проверил здесь переполнение стека кучу, и я не могу понять, что я делаю неправильно, это кажется самой простой вещью. спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...