500 Внутренняя ошибка сервера от стороннего API - PullRequest
0 голосов
/ 05 июля 2018

Python 3.6 - Scrapy 1.5

Я просматриваю гарантийную веб-страницу John Deere, чтобы посмотреть все новые PMP и дату истечения срока их действия. Просматривая сетевое взаимодействие между браузером и веб-страницей, я нашел REST API, который передает данные на веб-странице.

Теперь я пытаюсь получить данные json из API, а не очищать содержимое страницы javascript. Тем не менее я получаю внутреннюю ошибку сервера и не знаю, почему.

Я использую scrapy для входа и сбора данных.

import scrapy

class PmpSpider(scrapy.Spider):
    name = 'pmp'
    start_urls = ['https://jdwarrantysystem.deere.com/portal/']

    def parse(self, response):

        self.log('***Form Request***')
        login ={
            'USERNAME':*******,
            'PASSWORD':*******
            }
        yield scrapy.FormRequest.from_response(
            response,
            url = 'https://registration.deere.com/servlet/com.deere.u90950.registrationlogin.view.servlets.SignInServlet',
            method = 'POST', formdata = login, callback = self.parse_pmp
        )
        self.log('***PARSE LOGIN***')

    def parse_pmp(self, response):
        self.log('***PARSE PMP***')
        cookies = response.headers.getlist('Set-Cookie')
        for cookie in cookies:
            cookie = cookie.decode('utf-8')
            self.log(cookie)
            cook = cookie.split(';')[0].split('=')[1]
            path = cookie.split(';')[1].split('=')[1]
            domain = cookie.split(';')[2].split('=')[1]
        yield scrapy.Request(
            url = 'https://jdwarrantysystem.deere.com/api/pip-products/collection',
            method = 'POST',
            cookies = {
                'SESSION':cook,
                'path':path,
                'domain':domain
            },
            headers = {
            "Accept":"application/json",
            "accounts":["201445","201264","201167","201342","201341","201221"],
            "excludedPin":"",
            "export":"",
            "language":"",
            "metric":"Y",
            "pipFilter":"OPEN",
            "pipType":["MALF","SAFT"]
            },
            meta = {'dont_redirect': True},
            callback = self.parse_pmp_list
        )

    def parse_pmp_list(self, response):
        self.log('***LISTA PMP***')
        self.log(response.body)

Почему я получаю ошибку? Как получить данные из этого API?

2018-07-05 17:26:19 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <POST https://jdwarrantysystem.deere.com/api/pip-products/collection> (failed 1 times): 500 Internal Server Error
2018-07-05 17:26:20 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <POST https://jdwarrantysystem.deere.com/api/pip-products/collection> (failed 2 times): 500 Internal Server Error
2018-07-05 17:26:21 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <POST https://jdwarrantysystem.deere.com/api/pip-products/collection> (failed 3 times): 500 Internal Server Error
2018-07-05 17:26:21 [scrapy.core.engine] DEBUG: Crawled (500) <POST https://jdwarrantysystem.deere.com/api/pip-products/collection> (referer: https://jdwarrantysystem.deere.com/portal/)
2018-07-05 17:26:21 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <500 https://jdwarrantysystem.deere.com/api/pip-products/collection>: HTTP status code is not handled or not allowed

Headers

Param

Request Headers

Example

1 Ответ

0 голосов
/ 06 июля 2018

Я обнаружил проблему: это запрос POST, который должен иметь данные тела в формате json, потому что в отличие от запроса GET параметры не передаются в URI. Заголовок запроса тоже нуждается в "content-type": "application/json". Смотрите: Как параметры отправляются в POST-запросе и Остальные POST в python . Итак, редактируем функцию parse_pmp:

def parse_pmp(self, response):
        self.log('***PARSE PMP***')
        cookies = response.headers.getlist('Set-Cookie')
        for cookie in cookies:
            cookie = cookie.decode('utf-8')
            self.log(cookie)
            cook = cookie.split(';')[0].split('=')[1]
            path = cookie.split(';')[1].split('=')[1]
            domain = cookie.split(';')[2].split('=')[1]

        data = json.dumps({"accounts":["201445","201264","201167","201342","201341","201221"],"excludedPin":"","export":"","language":"","metric":"Y","pipFilter":"OPEN","pipType":["MALF","SAFT"]}) # <----
        yield scrapy.Request(
            url = 'https://jdwarrantysystem.deere.com/api/pip-products/collection',
            method = 'POST',
            cookies = {
                'SESSION':cook,
                'path':path,
                'domain':domain
            },
            headers = {
            "Accept":"application/json",
            "content-type": "application/json" # <----
            },
            body = data, # <----
            meta = {'dont_redirect': True},
            callback = self.parse_pmp_list
        ) 

Все отлично работает!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...