Как использовать экстракторы ссылок Scrapy с Spla sh на следующих страницах - PullRequest
0 голосов
/ 04 февраля 2020

Возможно ли JavaScript -рендеринг также на следующих страницах или только на первой странице? Этот скрипт не работает для меня, я подозреваю, что паук не будет ждать 3 секунды на следующих страницах, и их возвращение не HTML после Spla sh.

class JsSpider(CrawlSpider):
    name = 'js_spider'
    start_urls = ["http://www.jspage.net"] # First level

    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url=url,
                                callback=self.parse,
                                endpoint='render.html',
                                args={'wait':3})

    # 1. Following
    rules = (
        Rule(LinkExtractor(restrict_xpaths='//div/a/@href'), callback='parse', follow=True),  # Level 1
        Rule(LinkExtractor(restrict_xpaths='//div/a/@href'), callback="parse"),  # Level 2
    )

    def parse(self, response):
        pass
...