Как преобразовать содержимое веб-страницы Bing для Python в удобочитаемое человеком? - PullRequest
0 голосов
/ 01 сентября 2018

Я играю на поисковой странице Bing, используя python. Я считаю, что полученный необработанный контент выглядит как байтовый тип, но попытка распаковать его не удалась. Кто-нибудь знает, что это за данные, и как мне извлечь из этого необработанного содержимого удобочитаемые данные? Спасибо!

Мой код отображал необработанный контент, а затем попытался выполнить распаковку, чтобы вы могли видеть необработанный контент, а также ошибки декомпрессии. Из-за того, что необработанный контент слишком длинный, я просто вставляю первые несколько строк ниже.

Код:

import urllib.request as Request
import gzip

req = Request.Request('www.bing.com')
req.add_header('upgrade-insecure-requests', 1)
res = Request.urlopen(req).read()
print("RAW Content: %s" %ResPage) # show raw content of web
print("Try decompression:")
print(gzip.decompress(ResPage))   # try decompression

Результат:

RAW Content: b'+p\xe70\x0bi{)\xee!\xea\x88\x9c\xd4z\x00Tgb\x8c\x1b\xfa\xe3\xd7\x9f\x7f\x7f\x1d8\xb8\xfeaZ\xb6\xe3z\xbe\'\x7fj\xfd\xff+\x1f\xff\x1a\xbc\xc5N\x00\xab\x00\xa6l\xb2\xc5N\xb2\xdek\xb9V5\x02\t\xd0D \x1d\x92m%\x0c#\xb9>\xfbN\xd7\xa7\x9d\xa5\xa8\x926\xf0\xcc\'\x13\x97\x01/-\x03... ...

Try decompression:
Traceback (most recent call last):
OSError: Not a gzipped file (b'+p')


Process finished with exit code 1

1 Ответ

0 голосов
/ 02 сентября 2018

Гораздо проще начать работу с библиотекой запросов. Кроме того, в настоящее время это также наиболее часто используемая библиотека для http-запросов.

Установка запросов в вашей среде Python:

pip install requests

В вашем .py файле:

import requests

r = requests.get("http://www.bing.com")

print(r.text)
...