Python запрашивает пост вернуть текст - PullRequest
1 голос
/ 28 апреля 2019

Как указано в заголовке, я пытаюсь очистить веб-сайт, который должен использовать post, отличный от get.

ниже приведен код, любая помощь будет высоко оценена

headers = {'Accept-Encoding': 'gzip, deflate',
           'Accept-Language': 'en,zh;q=0.9,zh-CN;q=0.8',
           'Connection': 'keep-alive',
           'Content-Length': '71',
           'Content-Type': 'application/x-www-form-urlencoded;charset=UTF-8',
           'Cookie':'acw_tc=65c86a0915562424980896166e8d7e63f2a68a3ce0960e074dfd8883b55f5a; __utmc=105455707; __utmz=105455707.1556243245.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); ajaxkey=1F7A239ABF2F548B9A3EF4A0F6FF5FDC66906C5D06FBF3C0; __utma=105455707.894288893.1556243245.1556400728.1556404658.5; __utmt=1; __utmb=105455707.1.10.1556404658; SERVERID=8abfb74b5c7dce7c6fa0fa50eb3d63af|1556404667|1556404656',
           'Host': 'www.ipe.org.cn',
           'Origin': 'http://www.ipe.org.cn',
           'Referer': 'http://www.ipe.org.cn/GreenSupplyChain/Communication.aspx',
           'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
           'X-Requested-With': 'XMLHttpRequest'}

url = "http://www.ipe.org.cn/data_ashx/GetAirData.ashx"
from_data = {'cmd': 'getcommunicationlist',
             'pageSize': 4,
             'pageIndex': 2,
             'industryId': 'on',
             'storyId': 0}
html = requests.get(url,
                     data=from_data,
                     headers=headers)

bsobj = BeautifulSoup(html.content,'html.parser')
bsobj # just a part of all the results
{isSuccess:'1',content:'%3Cul%3E%3Cli%3E%3Ctable%3E%3Ctr%3E%3Ctd%3E%3Cimg%20id%3D%223

Я могу успешно добраться до сайта, но не могу понять возвращаемый результат (это не html / xml и не json, просто text / plain, есть причина, по которой это может произойти? Кроме того, этот подход не возвращает весь контент, который я на самом деле можно наблюдать за этой страницей, но с помощью selenium можно (это медленно, поэтому я пытаюсь найти лучшее решение).

Мой желаемый результат Если find("div", {"class": "f26"})) должен возвращать что-то вроде '推动 一家 泡沫 材料 对 废气 违规 记录 做出 整改' (этот сайт имеет английскую версию), кроме только HTML-тега или его нет. EDIT

Я знаю, что в обычном случае я могу использовать bs для анализа результата, но я не могу использовать его, поскольку возвращаемый тип просто text/plain, было бы здорово, если бы вы могли попробовать приведенный выше код.

Ответы [ 2 ]

2 голосов
/ 28 апреля 2019

Это очень хакерский подход, но, похоже, он работает ...

Из проверки данных кажется, что сервер возвращает эквивалент словаря Python, который был преобразован в строку, например

>>> s = str({'a': 'b'})
>>> s
"{'a': 'b'}"

Обычный способ извлечения словаря из строки - использовать ast.literal_eval , но ast.literal_eval не может оценить строку (она не работает с ValueError: malformed node or string: <_ast.Name object at 0x7f719518c7b8>) *.

Тем не менее, похоже, что в строковом словаре есть только два ключа: isSuccess и content.Интерес представляет только значение «content», поэтому мы можем извлечь его из строки.

quoted = re.sub(r'\{.*content:', '', html.text[:-1]) 

quoted выглядит так:

quoted[:20]
"'%3Cul%3E%3Cli%3E%3C"

Это выглядит так, как будто оно содержит% -кодированный текст.Это может быть декодировано с использованием urllib.parse.unquote :

unquoted = urllib.parse.unquote(quoted)

unquoted выглядит как

unquoted[:60]
'\'<ul><li><table><tr><td><img id="3383" title="%u54C1%u724CX"'

Это выглядит лучше, но выглядит так, как будтодолжны быть экранированными в Unicode символьными последовательностями, где "%" должно быть "\".Давайте попробуем заменить "%" на обратную косую черту, когда за ней следуют "и" и четыре шестнадцатеричных символа.

replaced = re.sub(r'(%)(u[A-Fa-f0-9]{4})', r'\\\g<2>', unquoted)  
replaced[:60]
'\'<ul><li><table><tr><td><img id="3383" title="\\u54C1\\u724CX"'

Это почти правильно, но двойную обратную косую черту необходимо удалить.Кодирование текста в формате latin-1 сохранит все байты, затем декодирование с помощью кодека 'unicode-escape' удалит лишние обратные слеши.

markup = replaced.encode('latin-1').decode('unicode-escape')
markup[:60]
'\'<ul><li><table><tr><td><img id="3383" title="品牌X" src="http'

Это выглядит достаточно хорошо, чтобы перейти к BeautifulSoup.

soup = bs4.BeautifulSoup(markup)
soup.find("div", {"class": "con"})
<div class="con"><img src="/public/static/images/icons/g-gas.png"/> 废气<br/>● 环境违规事项:工业废气污染源;<br/>● 潜在影响:空气质量、公众健康。</div>

* Мне было бы интересно узнать , почему ast.literal_eval не может разобрать строковый диктат.

0 голосов
/ 28 апреля 2019

Для анализа вы должны использовать библиотеку BeautifulSoup, ваш код должен выглядеть примерно так:

from bs4 import BeautifulSoup


headers = {'Accept-Encoding': 'gzip, deflate',
           'Accept-Language': 'en,zh;q=0.9,zh-CN;q=0.8',
           'Connection': 'keep-alive',
           'Content-Length': '71',
           'Content-Type': 'application/x-www-form-urlencoded;charset=UTF-8',
           'Cookie':'acw_tc=65c86a0915562424980896166e8d7e63f2a68a3ce0960e074dfd8883b55f5a; __utmc=105455707; __utmz=105455707.1556243245.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); ajaxkey=1F7A239ABF2F548B9A3EF4A0F6FF5FDC66906C5D06FBF3C0; __utma=105455707.894288893.1556243245.1556400728.1556404658.5; __utmt=1; __utmb=105455707.1.10.1556404658; SERVERID=8abfb74b5c7dce7c6fa0fa50eb3d63af|1556404667|1556404656',
           'Host': 'www.ipe.org.cn',
           'Origin': 'http://www.ipe.org.cn',
           'Referer': 'http://www.ipe.org.cn/GreenSupplyChain/Communication.aspx',
           'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
           'X-Requested-With': 'XMLHttpRequest'}

url = "http://www.ipe.org.cn/data_ashx/GetAirData.ashx"
from_data = {'cmd': 'getcommunicationlist',
             'pageSize': 4,
             'pageIndex': 2,
             'industryId': 'on',
             'storyId': 0}
html = requests.get(url,
                     data=from_data,
                     headers=headers)
soup = BeautifulSoup(html.content,"lxml")
all_div = soup.find("div", {"class": "list-recent"})

(Если вы все пытаетесь найти несколько div-ов, убедитесь, что вы используете findAll("div", {"class": "list-recent"}) вместо find("div", {"class": "list-recent"})).

Надеюсь, это поможет!

...