Question

Используя mechanize, я получил исходную страницу сети, которая содержит некоторые не-ASCII символы, такие как китайские символы.

Код идет ниже:

#using python2.6
from mechanize import Browser

br = Browser()
br.open("http://www.example.html")

src = br.reponse().read()  #retrieve the source of the web

print src   #print the src

Вопрос:

1. Согласно источнику страницы, я вижу, что это charset=gb2312, но когда я print src, все содержимое верно, я имею в виду не бред.Зачем?Знает ли print кодировку src?

2. Должен ли я явно декодировать или кодировать src?

Ignacio Vazquez-Abrams · Answer 1 · 26 сентября 2011

src - это unicode, который не имеет кодировки.print (или, точнее, sys.stdout.write()) определяет, какую кодировку использовать при выводе.

кодировка Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

кодировка Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы