Question

Я выполняю этот Splash-Scrapy Spider, чтобы получить этот URL-адрес после рендеринга: https://github.com/scrapy/scrapy/find/master (JS создает таблицу, содержащую имена файлов проекта, и именно эту информацию я хотел бы получить наконец)

import scrapy
from scrapy_splash import SplashRequest

class SplashSpider(scrapy.Spider):
    name = 'splash_spider'

    def start_requests(self):
        yield SplashRequest(
            url='https://github.com/scrapy/scrapy/find/master',
            callback=self.parse,
        )

    def parse(self, response):
        self.log('I have just visited ' + response.url)
        with open('a', 'wb') as f:
            f.write(response.body)

Тем не менее, я получаю только исходный код страницы, а не сгенерированные элементы JS.

Возможно ли, что Splash-Scrapy не может отображать элементы из-за времени генерации,тип сценария или я что-то не так делаю?

Конечно, я пытался получить имена файлов с помощью селекторов css / xpath, я просто записываю тело ответа в файл для более быстрого тестирования / показа ответа.

Я протестировал другие примеры Splash-Scrapy с рендерингом JavaScript и работал, поэтому я думаю, что это не может быть settings.py неверной конфигурацией.

Scrapy Splash не отображает сгенерированные JS элементы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Scrapy Splash не отображает сгенерированные JS элементы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы