Получение элементов JavaScript на веб-сайте с помощью scrapy_splash - PullRequest
0 голосов
/ 24 октября 2019

Я пытаюсь очистить веб-сайты (например, https://home.dk/resultatliste/?CurrentPageNumber=0&SearchResultsPerPage=15&q=2100&Energimaerker=null&SearchType=0) для перехода по URL для получения информации о списках домов.

Я установил Scrapy 1.7.3 и Scrapy_Splash, потому что веб-сайты содержатJavaScript, но даже с библиотекой Scrapy_Splash он не загружает URL-адреса в Scrapy.

Например:

Вместо:

Мой код очень прост (первый настоящийпроект)

name = 'newhome'

start_urls = ['https://home.dk/resultatliste/?CurrentPageNumber=0&SearchResultsPerPage=15&q=2100&Energimaerker=null&SearchType=0',
'https://home.dk/resultatliste/?CurrentPageNumber=0&SearchResultsPerPage=15&q=2000&Energimaerker=null&SearchType=0',]

def start_requests(self):
    for url in self.start_urls:
        yield SplashRequest(url, self.parse,
        endpoint='render.html',
        args={'wait': 5.0},
        )

def parse(self, response):
    from scrapy.http.response.html import HtmlResponse
    open_in_browser(response)
    return None

Я бы хотел, чтобы список из 15 URL-адресов загружался с каждого сайта.

...