Как включить Javascript в запросе Scrapy URL? - PullRequest
1 голос
/ 16 апреля 2019

Я пытаюсь удалить данные с этого сайта, используя скрап https://www.superbancos.gob.pa/es/fin-y-est/reportes-estadisticos?field_ano_rep_est_value=2018

но ответ, который я получаю, будет следующим html-ответом: Вы перенаправлены ... Javascript требуется. Пожалуйста, включите JavaScript, прежде чем вы сможете увидеть эту страницу.

Я попытался отключить Javascript из браузера Chrome, чтобы посмотреть, смогу ли я получить тот же ответ Scrapy, но он продолжает показывать мне данные

Я не могу понять, нужно ли мне что-то изменить или добавить в мои настройки.py

Может ли это быть заголовок запроса? или агент?

class TestSpider(scrapy.Spider):
    name = "test"        
    def start_requests(self):
        url = 'https://www.superbancos.gob.pa/es/fin-y-est/reportes-estadisticos?field_ano_rep_est_value=2018'
        yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'report-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)

1 Ответ

0 голосов
/ 16 апреля 2019

Используйте эти заголовки и куки и посмотрите разницу

cookies = {
    'sucuri_cloudproxy_uuid_3763320b2': 'b0cda35ef63b5b3df4215f2b7902756f',
}

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en-US,en;q=0.5',
    'Connection': 'keep-alive',
    'Upgrade-Insecure-Requests': '1',
    'Cache-Control': 'max-age=0',
    'TE': 'Trailers',
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...