Используя mechanize
, я получил исходную страницу сети, которая содержит некоторые не-ASCII символы, такие как китайские символы.
Код идет ниже:
#using python2.6
from mechanize import Browser
br = Browser()
br.open("http://www.example.html")
src = br.reponse().read() #retrieve the source of the web
print src #print the src
Вопрос:
1. Согласно источнику страницы, я вижу, что это charset=gb2312
, но когда я print src
, все содержимое верно, я имею в виду не бред.Зачем?Знает ли print
кодировку src?
2. Должен ли я явно декодировать или кодировать src?