python-Использование urllib для извлечения веб-контента, но полученное содержимое отличается от того, что я получил с помощью браузера - PullRequest
0 голосов
/ 26 апреля 2018

Я хочу написать перевод API, используя этот сайт , который имеет много полезных функций при работе с предложениями с подстановочными знаками.

Сначала я использую F12 в Chrome, чтобы увидеть, какой URL-адрес запроса используется для получения результата. Here is the screen shot:

Я проверил, что только salt и sigh изменились, когда я использую разные входы. Поэтому я смотрю исходный код js, чтобы увидеть, как были созданы salt и sigh. Затем я использую библиотеку Python urllib, чтобы отправить запрос и получить ответ. Но перевод ответа не был тем же самым, когда я использую браузер, чтобы получить его. Например,

Вход: "на каком альбоме был выпущен # head_entity #?"

Output_browser: "# head_entity # 发布 了 什么 专辑?"

Output_python: "发布 的 专辑 是 什么 # head_entity? #"

что явно отличается.

Это код для получения моего результата:

import urllib.request
import urllib.parse 
import json 
import time 
import random 
import hashlib 
def translator(content):
    """arg:content"""
    url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule' 
    data = {} 
    u = 'fanyideskweb' 
    d = content 
    f = str(int(time.time()*1000) + random.randint(1,10)) 
    c = 'rY0D^0\'nM0}g5Mm1z%1G4' 
    sign = hashlib.md5((u + d + f + c).encode('utf-8')).hexdigest() 
    data['i'] = content 
    data['from'] = 'AUTO' 
    data['to'] = 'AUTO' 
    data['smartresult'] = 'dict' 
    data['client'] = 'fanyideskweb' 
    data['salt'] = f 
    data['sign'] = sign 
    data['doctype'] = 'json' 
    data['version'] = '2.1' 
    data['keyfrom'] = 'fanyi.web' 
    data['action'] = 'FY_BY_CL1CKBUTTON' 
    data['typoResult'] = 'true' 
    data = urllib.parse.urlencode(data).encode('utf-8') 
    request = urllib.request.Request(url=url,data=data,method='POST') 
    response = urllib.request.urlopen(request) 
    d = json.loads(response.read().decode('utf-8'))
    return d['translateResult'][0][0]['tgt']
translator('what album was #head_entity# released on?')

Единственное, что я изменил, чтобы сделать запрос, отличный от исходной страницы, это аргумент url в коде:

My_url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'

Original_url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule', который дал мне ошибку {"errorCode":50}

Я проверил заголовок и параметры данных один за другим, но все еще не могу решить проблему. Я понятия не имею, почему это произошло. Есть идеи?

...