Python Scrapy: 400 ответов от формы запроса - PullRequest
0 голосов
/ 02 сентября 2018

Я пытался почистить сайт https://fbschedules.com/new-england-patriots-schedule/

Этот сайт использует скрытую форму для отправки ajax-запроса в php-файл: https://fbschedules.com/wp-admin/admin-ajax.php

После попытки симуляции запроса AJAX scrapy возвращает ответ 400 для этого кода:

def parse(self, response):
    headers = {
        'User_Agent': user_agent,
        'Accept': 'application/json, text/javascript, */*; q=0.01',
        'Accept-Language': 'en-US,en;q=0.5',
        'Accept-Encoding': 'gzip, deflate, br',
        'Referer': 'https://fbschedules.com/new-england-patriots-schedule/',
        'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'X-Requested-With': 'XMLHttpRequest',
        'Cookie': cookie,
        'DNT': '1',
        'Connection': 'keep-alive',
        'Cache-Control': 'max-age=0'
    }

    data = {
        'action': 'load_fbschedules_ajax',
        'type': 'NFL',
        'display': 'Season',
        'team': 'New+England+Patriots',
        'current_season': '2018',
        'view': '',
        'conference': '',
        'conference-division': '',
        'ncaa-subdivision': '',
        'ispreseason': '',
        'schedule-week': '',
    }

    yield scrapy.FormRequest.from_response('https://fbschedules.com/wp-admin/admin-ajax.php',
                                           headers=headers,
                                           formdata=data,
                                           method='POST',
                                           callback=self.schedule_parse)

Любая помощь в правильном направлении приветствуется!

Редактировать: я должен также упомянуть, что я запускаю этого паука как один скрипт, используя:

def start():
    configure_logging()
    runner = CrawlerRunner()
    runner.crawl(NflSpider)
    d = runner.join()
    d.addBoth(lambda _: reactor.stop())

    reactor.run()

чтобы начать сканирование страницы. Консольный вывод выглядит следующим образом:

2018-09-02 18:20:33 [scrapy.core.engine] ИНФОРМАЦИЯ: Паук открыт

2018-09-02 18:20:33 [scrapy.extensions.logstats] ИНФОРМАЦИЯ: Просканировано 0 страниц (при 0 стр / мин), соскоб 0 штук (при 0 ед / мин)

2018-09-02 18:20:33 [scrapy.extensions.telnet] ОТЛАДКА: Консоль Telnet прослушивание 127.0.0.1:6024

2018-09-02 18:20:33 [scrapy.core.engine] ОТЛАДКА: Сканировано (400) https://fbschedules.com/wp-admin/admin-ajax.php> (реферер: нет)

2018-09-02 18:20:33 [scrapy.spidermiddlewares.httperror] ИНФОРМАЦИЯ: Игнорирование ответа <400 <a href="https://fbschedules.com/wp-admin/admin-ajax.php" rel="nofollow noreferrer">https://fbschedules.com/wp-admin/admin-ajax.php>: Код статуса HTTP не обрабатывается или не допускается

2018-09-02 18:20:33 [scrapy.core.engine] ИНФОРМАЦИЯ: Закрытие паука (Законченный)

1 Ответ

0 голосов
/ 18 июля 2019

У меня была такая же проблема, Я обработал это, добавив мета-аргумент к параметрам FormRequest.

Попробуйте использовать scrapy.FormRequest вместо scrapy.FormRequest.from_response:

meta = {'handle_httpstatus_all': True}
yield FormRequest('https://fbschedules.com/wp-admin/admin-ajax.php',
                                           headers=headers,
                                           formdata=data,
                                           method='POST',
                                           meta=meta,
                                           callback=self.schedule_parse)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...