Я пытался почистить сайт https://fbschedules.com/new-england-patriots-schedule/
Этот сайт использует скрытую форму для отправки ajax-запроса в php-файл: https://fbschedules.com/wp-admin/admin-ajax.php
После попытки симуляции запроса AJAX scrapy возвращает ответ 400 для этого кода:
def parse(self, response):
headers = {
'User_Agent': user_agent,
'Accept': 'application/json, text/javascript, */*; q=0.01',
'Accept-Language': 'en-US,en;q=0.5',
'Accept-Encoding': 'gzip, deflate, br',
'Referer': 'https://fbschedules.com/new-england-patriots-schedule/',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'X-Requested-With': 'XMLHttpRequest',
'Cookie': cookie,
'DNT': '1',
'Connection': 'keep-alive',
'Cache-Control': 'max-age=0'
}
data = {
'action': 'load_fbschedules_ajax',
'type': 'NFL',
'display': 'Season',
'team': 'New+England+Patriots',
'current_season': '2018',
'view': '',
'conference': '',
'conference-division': '',
'ncaa-subdivision': '',
'ispreseason': '',
'schedule-week': '',
}
yield scrapy.FormRequest.from_response('https://fbschedules.com/wp-admin/admin-ajax.php',
headers=headers,
formdata=data,
method='POST',
callback=self.schedule_parse)
Любая помощь в правильном направлении приветствуется!
Редактировать: я должен также упомянуть, что я запускаю этого паука как один скрипт, используя:
def start():
configure_logging()
runner = CrawlerRunner()
runner.crawl(NflSpider)
d = runner.join()
d.addBoth(lambda _: reactor.stop())
reactor.run()
чтобы начать сканирование страницы.
Консольный вывод выглядит следующим образом:
2018-09-02 18:20:33 [scrapy.core.engine] ИНФОРМАЦИЯ: Паук открыт
2018-09-02 18:20:33 [scrapy.extensions.logstats] ИНФОРМАЦИЯ: Просканировано 0 страниц
(при 0 стр / мин), соскоб 0 штук (при 0 ед / мин)
2018-09-02 18:20:33 [scrapy.extensions.telnet] ОТЛАДКА: Консоль Telnet
прослушивание 127.0.0.1:6024
2018-09-02 18:20:33 [scrapy.core.engine] ОТЛАДКА: Сканировано (400) https://fbschedules.com/wp-admin/admin-ajax.php> (реферер: нет)
2018-09-02 18:20:33 [scrapy.spidermiddlewares.httperror] ИНФОРМАЦИЯ:
Игнорирование ответа <400
<a href="https://fbschedules.com/wp-admin/admin-ajax.php" rel="nofollow noreferrer">https://fbschedules.com/wp-admin/admin-ajax.php>: Код статуса HTTP
не обрабатывается или не допускается
2018-09-02 18:20:33 [scrapy.core.engine] ИНФОРМАЦИЯ: Закрытие паука
(Законченный)