Я выполняю этот Splash-Scrapy Spider, чтобы получить этот URL-адрес после рендеринга: https://github.com/scrapy/scrapy/find/master (JS создает таблицу, содержащую имена файлов проекта, и именно эту информацию я хотел бы получить наконец)
import scrapy
from scrapy_splash import SplashRequest
class SplashSpider(scrapy.Spider):
name = 'splash_spider'
def start_requests(self):
yield SplashRequest(
url='https://github.com/scrapy/scrapy/find/master',
callback=self.parse,
)
def parse(self, response):
self.log('I have just visited ' + response.url)
with open('a', 'wb') as f:
f.write(response.body)
Тем не менее, я получаю только исходный код страницы, а не сгенерированные элементы JS.
Возможно ли, что Splash-Scrapy не может отображать элементы из-за времени генерации,тип сценария или я что-то не так делаю?
Конечно, я пытался получить имена файлов с помощью селекторов css / xpath, я просто записываю тело ответа в файл для более быстрого тестирования / показа ответа.
Я протестировал другие примеры Splash-Scrapy с рендерингом JavaScript и работал, поэтому я думаю, что это не может быть settings.py
неверной конфигурацией.