Question

Мой код просто очищает веб-страницу, а затем преобразует ее в Unicode.

html = urllib.urlopen(link).read()
html.encode("utf8","ignore")
self.response.out.write(html)

Но я получаю UnicodeDecodeError:

Traceback (most recent call last):
  File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__
    handler.get(*groups)
  File "/Users/greg/clounce/main.py", line 55, in get
    html.encode("utf8","ignore")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 2818: ordinal not in range(128)

Я предполагаю, что это означает, что HTML содержит какую-то неправильно сформированную попытку Unicode где-то. Могу ли я просто отбросить те байты кода, которые вызывают проблему, вместо того, чтобы получить ошибку?

Ignacio Vazquez-Abrams · Answer 1 · 02 марта 2010

>>> u'aあä'.encode('ascii', 'ignore')
'a'

EDIT:

Расшифруйте полученную строку, используя кодировку в соответствующем теге meta в ответе или в заголовке Content-Type, затем закодируйте.

Метод encode() принимает другие значения как «игнорировать». Например: «заменить», «xmlcharrefreplace», «обратная косая черта». Смотри https://docs.python.org/3/library/stdtypes.html#str.encode

Peter Gibson · Answer 2 · 16 октября 2011

Как продолжение ответа Игнасио Васкеса-Абрамса

>>> u'aあä'.encode('ascii', 'ignore')
'a'

Иногда желательно убрать акценты с символов и распечатать базовую форму. Это можно сделать с помощью

>>> import unicodedata
>>> unicodedata.normalize('NFKD', u'aあä').encode('ascii', 'ignore')
'aa'

Возможно, вы также захотите перевести другие символы (например, знаки пунктуации) в их ближайшие эквиваленты, например, символ юникода RIGHT SINGLE QUOTATION MARK не конвертируется в ascii APOSTROPHE при кодировании.

>>> print u'\u2019'
’
>>> unicodedata.name(u'\u2019')
'RIGHT SINGLE QUOTATION MARK'
>>> u'\u2019'.encode('ascii', 'ignore')
''
# Note we get an empty string back
>>> u'\u2019'.replace(u'\u2019', u'\'').encode('ascii', 'ignore')
"'"

Хотя есть более эффективные способы сделать это. См. Этот вопрос для получения более подробной информации Где находится база данных Python "лучший ASCII для этого Unicode"?

Vin-G · Answer 3 · 03 марта 2010

2018 Обновление:

По состоянию на февраль 2018 года использование компрессий типа gzip стало довольно популярным (его используют около 73% всех сайтов, включая такие крупные сайты, как Google, YouTube, Yahoo, Wikipedia, Reddit, Stack Overflow и Stack Exchange Network).
Если вы выполните простое декодирование, как в исходном ответе с gzipped ответом, вы получите ошибку, подобную или похожую на эту:

UnicodeDecodeError: кодек «utf8» не может декодировать байт 0x8b в позиции 1: неожиданный байт кода

Чтобы декодировать ответ gzpipped, вам нужно добавить следующие модули (в Python 3):

import gzip
import io

Примечание: В Python 2 вы бы использовали StringIO вместо io

Затем вы можете разобрать содержимое следующим образом:

response = urlopen("https://example.com/gzipped-ressource")
buffer = io.BytesIO(response.read()) # Use StringIO.StringIO(response.read()) in Python 2
gzipped_file = gzip.GzipFile(fileobj=buffer)
decoded = gzipped_file.read()
content = decoded.decode("utf-8") # Replace utf-8 with the source encoding of your requested resource

Этот код читает ответ и помещает байты в буфер. Затем модуль gzip читает буфер, используя функцию GZipFile. После этого файл gzipped можно снова прочитать в байты и в конце декодировать в нормально читаемый текст.

Оригинальный ответ от 2010 года:

Можем ли мы получить фактическое значение, используемое для link?

Кроме того, мы обычно сталкиваемся здесь с этой проблемой, когда пытаемся .encode() уже закодировать строку байтов. Поэтому вы можете сначала попытаться декодировать его, как в

html = urllib.urlopen(link).read()
unicode_str = html.decode(<source encoding>)
encoded_str = unicode_str.encode("utf8")

Как пример:

html = '\xa0'
encoded_str = html.encode("utf8")

Сбой с

UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 0: ordinal not in range(128)

В то время как:

html = '\xa0'
decoded_str = html.decode("windows-1252")
encoded_str = decoded_str.encode("utf8")

Успешно без ошибок. Обратите внимание, что "windows-1252" - это то, что я использовал в качестве примера . Я получил это от chardet , и у него было 0,5 уверенности, что это правильно! (ну, как и в случае со строкой длиной в 1 символ, что вы ожидаете) Вы должны изменить это на кодировку строки байтов, возвращенной из .urlopen().read() на то, что относится к содержимому, которое вы получили.

Другая проблема, которую я вижу, состоит в том, что строковый метод .encode() возвращает измененную строку и не изменяет источник на месте. Поэтому бесполезно иметь self.response.out.write(html), поскольку html не является закодированной строкой из html.encode (если это то, к чему вы изначально стремились).

Как предложил Игнасио, проверьте исходную веб-страницу на предмет фактической кодировки возвращаемой строки из read(). Это либо в одном из мета-тегов, либо в заголовке ContentType в ответе. Затем используйте это как параметр для .decode().

Обратите внимание, однако, что не следует предполагать, что другие разработчики несут достаточную ответственность, чтобы убедиться, что объявления заголовка и / или набора метасимволов соответствуют фактическому содержанию. (Что такое PITA, да, я должен знать, я был одним из них раньше).

Nimo · Answer 4 · 21 февраля 2016

Использование unidecode - он даже мгновенно преобразует странные символы в ascii и даже преобразует китайский язык в фонетический ascii.

$ pip install unidecode

, то:

>>> from unidecode import unidecode
>>> unidecode(u'北京')
'Bei Jing'
>>> unidecode(u'Škoda')
'Skoda'

Gattster · Answer 5 · 03 марта 2010

Я использую эту вспомогательную функцию во всех моих проектах. Если он не может конвертировать юникод, он игнорирует его. Это связано с библиотекой django, но с небольшим исследованием вы можете обойти ее.

from django.utils import encoding

def convert_unicode_to_string(x):
    """
    >>> convert_unicode_to_string(u'ni\xf1era')
    'niera'
    """
    return encoding.smart_str(x, encoding='ascii', errors='ignore')

Я больше не получаю никаких ошибок Unicode после использования этого.

ccpizza · Answer 6 · 16 января 2012

Для сломанных консолей, таких как cmd.exe и HTML, вы всегда можете использовать:

my_unicode_string.encode('ascii','xmlcharrefreplace')

Это сохранит все символы, отличные от ascii, и сделает их печатаемыми в чистом ASCII и в HTML.

ПРЕДУПРЕЖДЕНИЕ : Если вы используете это в рабочем коде, чтобы избежать ошибок, то, скорее всего, что-то не так в вашем коде . Единственным допустимым вариантом использования для этого является печать на консоли, не поддерживающей Юникод, или простое преобразование в сущности HTML в контексте HTML.

И, наконец, если вы работаете в Windows и используете cmd.exe, вы можете набрать chcp 65001, чтобы включить вывод utf-8 (работает со шрифтом Lucida Console). Возможно, вам придется добавить myUnicodeString.encode('utf8').

John Machin · Answer 7 · 03 марта 2010

Вы написали "" "Я предполагаю, что это означает, что HTML содержит какую-то неверно сформированную попытку где-то использовать Unicode." ""

Не предполагается, что HTML будет содержать какие-либо «попытки ввода Юникода», правильные или нет. Он должен обязательно содержать символы Unicode, закодированные в некоторой кодировке, которая обычно предоставляется заранее ... ищите "charset".

Похоже, вы предполагаете, что кодировка UTF-8 ... на каких основаниях? Байт «\ xA0», который отображается в вашем сообщении об ошибке, указывает, что у вас может быть однобайтовая кодировка, например cp1252.

Если вы не можете понять смысл объявления в начале HTML-кода, попробуйте использовать chardet , чтобы узнать, какова вероятная кодировка.

Почему вы пометили свой вопрос "регулярное выражение"?

Обновление после того, как вы заменили весь свой вопрос не-вопросом:

html = urllib.urlopen(link).read()
# html refers to a str object. To get unicode, you need to find out
# how it is encoded, and decode it.

html.encode("utf8","ignore")
# problem 1: will fail because html is a str object;
# encode works on unicode objects so Python tries to decode it using 
# 'ascii' and fails
# problem 2: even if it worked, the result will be ignored; it doesn't 
# update html in situ, it returns a function result.
# problem 3: "ignore" with UTF-n: any valid unicode object 
# should be encodable in UTF-n; error implies end of the world,
# don't try to ignore it. Don't just whack in "ignore" willy-nilly,
# put it in only with a comment explaining your very cogent reasons for doing so.
# "ignore" with most other encodings: error implies that you are mistaken
# in your choice of encoding -- same advice as for UTF-n :-)
# "ignore" with decode latin1 aka iso-8859-1: error implies end of the world.
# Irrespective of error or not, you are probably mistaken
# (needing e.g. cp1252 or even cp850 instead) ;-)

Jama22 · Answer 8 · 02 марта 2010

Если у вас есть строка line, вы можете использовать метод .encode([encoding], [errors='strict']) для строк для преобразования типов кодирования.

line = 'my big string'

line.encode('ascii', 'ignore')

Для получения дополнительной информации об обработке ASCII и Unicode в Python, это действительно полезный сайт: https://docs.python.org/2/howto/unicode.html

Somum · Answer 9 · 15 января 2017

Я думаю, что ответ есть, но только по частям, что затрудняет быстрое решение проблемы, такой как

UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 2818: ordinal not in range(128)

Давайте рассмотрим пример. Предположим, у меня есть файл, содержащий некоторые данные в следующем виде (содержащие символы ascii и non-ascii)

1/10/17, 21:36 - Земля: Добро пожаловать ï¿½ï¿½

и мы хотим игнорировать и сохранять только символы ascii.

Этот код будет делать:

import unicodedata
fp  = open(<FILENAME>)
for line in fp:
    rline = line.strip()
    rline = unicode(rline, "utf-8")
    rline = unicodedata.normalize('NFKD', rline).encode('ascii','ignore')
    if len(rline) != 0:
        print rline

и тип (rline) даст вам

>type(rline) 
<type 'str'>

HimalayanCoder · Answer 10 · 05 сентября 2014

unicodestring = '\xa0'

decoded_str = unicodestring.decode("windows-1252")
encoded_str = decoded_str.encode('ascii', 'ignore')

У меня работает

Конвертировать Unicode в ASCII без ошибок в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

2018 Обновление:

Оригинальный ответ от 2010 года:

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Конвертировать Unicode в ASCII без ошибок в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 11 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

2018 Обновление:

Оригинальный ответ от 2010 года:

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы