Почтовый запрос не работает в Scrapy.Работает в Почтальоне.Где я не прав? - PullRequest
0 голосов
/ 26 сентября 2018

Я использую scrapy.FormRequest.from_response для публикации.Я получаю капчу, и все данные на месте, но я не получаю ожидаемую таблицу.But this message Вот моя полезная нагрузка

{
  'captcha': '680336',
  'districtCode': '714',
  'sroVal': 'TADIKONDA(714)',
  'selectedSroId': 'null',
  'sroId': '7',
  'path': '/APCARDECClient',
  'regyear': '2018',
  'docSel': '1',
  'doct': '861'
}

И заголовки, которые я использовал для запроса Post.

{
  'origin': 'http://registration.ap.gov.in',
  'accept-language': 'en-US,en;q=0.9,ru;q=0.8,uk;q=0.7',
  'accept-encoding': 'gzip, deflate',
  'accept': 'text/html,application/xh tml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
  'upgrade-insecure-requests': '1',
  'referer': 'http://registration.ap.gov.in/APCARDECClient/ecSearchByDocAu to.jsp?distcode=&distname=&srocode=&sroname=',
  'user-agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
  'dnt': '1',
  'Cookie': 'JSESSIONID=dQJTbqhpYdg1PMjJZkYT9bTyLLnMqV43zxj2sws1gZ2fQ8fJn0CQ!-392092779',
  'cache-control': 'no-cache',
  'content-type': 'application/x-www-form-urle ncoded'
}

Когда я использую те же данные для имитации Post в Postmanон работает нормально, и я получаю таблицу, как ожидалось.Postman results Вот полезная информация от Почтальона:

captcha:331683
districtCode:7
docSel:1
doct:861
path:/APCARDECClient
regyear:2018
selectedSroId:null
sroId:714
sroVal:TADIKONDA(714)

и заголовки от Почтальона:

Origin:http://registration.ap.gov.in
Upgrade-Insecure-Requests:1
DNT:1
User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Referer:http://registration.ap.gov.in/APCARDECClient/FetchHelpDetails
Accept-Encoding:gzip, deflate
Accept-Language:en-US,en;q=0.9,ru;q=0.8,uk;q=0.7
Cookie:JSESSIONID=dQJTbqhpYdg1PMjJZkYT9bTyLLnMqV43zxj2sws1gZ2fQ8fJn0CQ!-392092779
Content-Type:application/x-www-form-urlencoded

Пожалуйста, укажите, где я не прав?Единственная возможность, которую я вижу, - это строка:

Content-Type:application/x-www-form-urlencoded

Нужно ли делать что-то явное в Scrapy для кодирования полезной нагрузки следующим образом?

PS Когда я использую голое

yield scrapy.Request(url, method ="POST",  body=json.dumps(payload),headers=headers,  callback = self.details1)

Я получаю стартовую страницу с пустыми полями.enter image description here

Ответы [ 2 ]

0 голосов
/ 26 сентября 2018

Хорошо.Так что проблема была в 'Content-Type': 'application/x-www-form-urlencoded', Я заметил это в самом начале, но не обратил на это никакого дополнительного внимания.Так глупо.Для прохождения этой страницы полезная нагрузка должна быть urlencoded, как указано Content_Type.Вот как это сделать.

import urllib

payload = {'captcha': '865944',
                 'sroVal': 'TADIKONDA(714)',
                 'sroId': '714',
                 'regyear': '2017', 
                 'doct': '1',
                 'districtCode': '7',
                 'path': '/APCARDECClient',
                 'selectedSroId': 'null',
                 'docSel': '1',
           }

payload = urllib.urlencode(payload)

yield scrapy.Request(url, method ="POST",  body=payload ,headers=headers,  
                     callback = self.details1)
0 голосов
/ 26 сентября 2018

Не используйте FormRequest - он просто вводит некоторые заголовки и имеет несколько ярлыков тела.Если вы реплицируете запрос, просто используйте barebones Request.

import headers
headers = {
    # make sure Content Type is set
    'Content-Type': 'application/x-www-form-urlencoded',
    # some other headers
}
payload = """foobar"""
Request(
    url,
    headers=headers,
    method='POST',
    body=payload,
)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...