Из какой кодировки конвертирует функция Юникода в BeautifulSoup? - PullRequest
1 голос
/ 07 июля 2010

Когда я использую функцию unicode в BeautifulSoup - из какой кодировки он конвертируется в Unicode? Использует ли он автоматически soup.originalEncoding?

from BeautifulSoup import BeautifulSoup
doc = "<html><h1>Heading</h1><p>Text"
soup = BeautifulSoup(doc)
print unicode(soup)

Спасибо

1 Ответ

1 голос
/ 07 июля 2010

unicode() является встроенным Python, а не частью BeautifulSoup.См. документы здесь .

unicode([object[, encoding[, errors]]])

Если указаны кодирование и / или ошибки, unicode () будет декодироватьобъект, который может быть либо 8-битной строкой, либо буфером символов, использующим кодек для кодирования.Параметр кодирования - это строка, дающая имя кодировки;если кодировка неизвестна, повышается LookupError.Обработка ошибок осуществляется в соответствии с ошибками;это определяет обработку символов, которые недопустимы во входной кодировке.Если ошибки «строгие» (по умолчанию), ValueError возникает при ошибках, в то время как значение «ignore» заставляет ошибки игнорироваться, а значение «replace» вызывает официальный символ замены Unicode, U + FFFD,использоваться для замены вводимых символов, которые не могут быть декодированы.См. Также модуль кодеков.

Если вы не укажете кодировку, по умолчанию будет использоваться sys.getdefaultencoding().

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...