Python urllib2 разбора проблемы HTML - PullRequest
1 голос
/ 01 августа 2011

Я использую Mechanize для разбора html сайта, но с этим сайтом я получил странный результат.

from mechanize import Browser
br = Browser()
r = br.open("http://www.heavenplaza.com")
result = r.read()

результат - это то, что я не могу понять. Вы можете увидеть здесь: http://paste2.org/p/1556077

У кого-нибудь может быть какой-нибудь способ получить HTML-код этого сайта? с механизацией или urllib.

Спасибо

Ответы [ 2 ]

1 голос
/ 01 августа 2011
import urllib2, StringIO, gzip
f = urllib2.urlopen("http://www.heavenplaza.com")
data = StringIO.StringIO(f.read())
gzipper = gzip.GzipFile(fileobj=data)
print gzipper.read()
1 голос
/ 01 августа 2011

Я быстро проверил скрипт в консоли и сайт возвращал дерьмо. Вам, вероятно, нужно подделать свой пользовательский агент HTTP, чтобы сайт не думал, что вы используете робота.

http://www.google.com работает

...