Конвертировать Unicode в ASCII без ошибок в Python - PullRequest
164 голосов
/ 02 марта 2010

Мой код просто очищает веб-страницу, а затем преобразует ее в Unicode.

html = urllib.urlopen(link).read()
html.encode("utf8","ignore")
self.response.out.write(html)

Но я получаю UnicodeDecodeError:


Traceback (most recent call last):
  File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__
    handler.get(*groups)
  File "/Users/greg/clounce/main.py", line 55, in get
    html.encode("utf8","ignore")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 2818: ordinal not in range(128)

Я предполагаю, что это означает, что HTML содержит какую-то неправильно сформированную попытку Unicode где-то. Могу ли я просто отбросить те байты кода, которые вызывают проблему, вместо того, чтобы получить ошибку?

Ответы [ 11 ]

201 голосов
/ 02 марта 2010
>>> u'aあä'.encode('ascii', 'ignore')
'a'

EDIT:

Расшифруйте полученную строку, используя кодировку в соответствующем теге meta в ответе или в заголовке Content-Type, затем закодируйте.

Метод encode() принимает другие значения как «игнорировать». Например: «заменить», «xmlcharrefreplace», «обратная косая черта». Смотри https://docs.python.org/3/library/stdtypes.html#str.encode

114 голосов
/ 16 октября 2011

Как продолжение ответа Игнасио Васкеса-Абрамса

>>> u'aあä'.encode('ascii', 'ignore')
'a'

Иногда желательно убрать акценты с символов и распечатать базовую форму. Это можно сделать с помощью

>>> import unicodedata
>>> unicodedata.normalize('NFKD', u'aあä').encode('ascii', 'ignore')
'aa'

Возможно, вы также захотите перевести другие символы (например, знаки пунктуации) в их ближайшие эквиваленты, например, символ юникода RIGHT SINGLE QUOTATION MARK не конвертируется в ascii APOSTROPHE при кодировании.

>>> print u'\u2019'
’
>>> unicodedata.name(u'\u2019')
'RIGHT SINGLE QUOTATION MARK'
>>> u'\u2019'.encode('ascii', 'ignore')
''
# Note we get an empty string back
>>> u'\u2019'.replace(u'\u2019', u'\'').encode('ascii', 'ignore')
"'"

Хотя есть более эффективные способы сделать это. См. Этот вопрос для получения более подробной информации Где находится база данных Python "лучший ASCII для этого Unicode"?

99 голосов
/ 03 марта 2010

2018 Обновление:

По состоянию на февраль 2018 года использование компрессий типа gzip стало довольно популярным (его используют около 73% всех сайтов, включая такие крупные сайты, как Google, YouTube, Yahoo, Wikipedia, Reddit, Stack Overflow и Stack Exchange Network).
Если вы выполните простое декодирование, как в исходном ответе с gzipped ответом, вы получите ошибку, подобную или похожую на эту:

UnicodeDecodeError: кодек «utf8» не может декодировать байт 0x8b в позиции 1: неожиданный байт кода

Чтобы декодировать ответ gzpipped, вам нужно добавить следующие модули (в Python 3):

import gzip
import io

Примечание: В Python 2 вы бы использовали StringIO вместо io

Затем вы можете разобрать содержимое следующим образом:

response = urlopen("https://example.com/gzipped-ressource")
buffer = io.BytesIO(response.read()) # Use StringIO.StringIO(response.read()) in Python 2
gzipped_file = gzip.GzipFile(fileobj=buffer)
decoded = gzipped_file.read()
content = decoded.decode("utf-8") # Replace utf-8 with the source encoding of your requested resource

Этот код читает ответ и помещает байты в буфер. Затем модуль gzip читает буфер, используя функцию GZipFile. После этого файл gzipped можно снова прочитать в байты и в конце декодировать в нормально читаемый текст.

Оригинальный ответ от 2010 года:

Можем ли мы получить фактическое значение, используемое для link?

Кроме того, мы обычно сталкиваемся здесь с этой проблемой, когда пытаемся .encode() уже закодировать строку байтов. Поэтому вы можете сначала попытаться декодировать его, как в

html = urllib.urlopen(link).read()
unicode_str = html.decode(<source encoding>)
encoded_str = unicode_str.encode("utf8")

Как пример:

html = '\xa0'
encoded_str = html.encode("utf8")

Сбой с

UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 0: ordinal not in range(128)

В то время как:

html = '\xa0'
decoded_str = html.decode("windows-1252")
encoded_str = decoded_str.encode("utf8")

Успешно без ошибок. Обратите внимание, что "windows-1252" - это то, что я использовал в качестве примера . Я получил это от chardet , и у него было 0,5 уверенности, что это правильно! (ну, как и в случае со строкой длиной в 1 символ, что вы ожидаете) Вы должны изменить это на кодировку строки байтов, возвращенной из .urlopen().read() на то, что относится к содержимому, которое вы получили.

Другая проблема, которую я вижу, состоит в том, что строковый метод .encode() возвращает измененную строку и не изменяет источник на месте. Поэтому бесполезно иметь self.response.out.write(html), поскольку html не является закодированной строкой из html.encode (если это то, к чему вы изначально стремились).

Как предложил Игнасио, проверьте исходную веб-страницу на предмет фактической кодировки возвращаемой строки из read(). Это либо в одном из мета-тегов, либо в заголовке ContentType в ответе. Затем используйте это как параметр для .decode().

Обратите внимание, однако, что не следует предполагать, что другие разработчики несут достаточную ответственность, чтобы убедиться, что объявления заголовка и / или набора метасимволов соответствуют фактическому содержанию. (Что такое PITA, да, я должен знать, я был одним из них раньше).

83 голосов
/ 21 февраля 2016

Использование unidecode - он даже мгновенно преобразует странные символы в ascii и даже преобразует китайский язык в фонетический ascii.

$ pip install unidecode

, то:

>>> from unidecode import unidecode
>>> unidecode(u'北京')
'Bei Jing'
>>> unidecode(u'Škoda')
'Skoda'
24 голосов
/ 03 марта 2010

Я использую эту вспомогательную функцию во всех моих проектах. Если он не может конвертировать юникод, он игнорирует его. Это связано с библиотекой django, но с небольшим исследованием вы можете обойти ее.

from django.utils import encoding

def convert_unicode_to_string(x):
    """
    >>> convert_unicode_to_string(u'ni\xf1era')
    'niera'
    """
    return encoding.smart_str(x, encoding='ascii', errors='ignore')

Я больше не получаю никаких ошибок Unicode после использования этого.

10 голосов
/ 16 января 2012

Для сломанных консолей, таких как cmd.exe и HTML, вы всегда можете использовать:

my_unicode_string.encode('ascii','xmlcharrefreplace')

Это сохранит все символы, отличные от ascii, и сделает их печатаемыми в чистом ASCII и в HTML.

ПРЕДУПРЕЖДЕНИЕ : Если вы используете это в рабочем коде, чтобы избежать ошибок, то, скорее всего, что-то не так в вашем коде . Единственным допустимым вариантом использования для этого является печать на консоли, не поддерживающей Юникод, или простое преобразование в сущности HTML в контексте HTML.

И, наконец, если вы работаете в Windows и используете cmd.exe, вы можете набрать chcp 65001, чтобы включить вывод utf-8 (работает со шрифтом Lucida Console). Возможно, вам придется добавить myUnicodeString.encode('utf8').

5 голосов
/ 03 марта 2010

Вы написали "" "Я предполагаю, что это означает, что HTML содержит какую-то неверно сформированную попытку где-то использовать Unicode." ""

Не предполагается, что HTML будет содержать какие-либо «попытки ввода Юникода», правильные или нет. Он должен обязательно содержать символы Unicode, закодированные в некоторой кодировке, которая обычно предоставляется заранее ... ищите "charset".

Похоже, вы предполагаете, что кодировка UTF-8 ... на каких основаниях? Байт «\ xA0», который отображается в вашем сообщении об ошибке, указывает, что у вас может быть однобайтовая кодировка, например cp1252.

Если вы не можете понять смысл объявления в начале HTML-кода, попробуйте использовать chardet , чтобы узнать, какова вероятная кодировка.

Почему вы пометили свой вопрос "регулярное выражение"?

Обновление после того, как вы заменили весь свой вопрос не-вопросом:

html = urllib.urlopen(link).read()
# html refers to a str object. To get unicode, you need to find out
# how it is encoded, and decode it.

html.encode("utf8","ignore")
# problem 1: will fail because html is a str object;
# encode works on unicode objects so Python tries to decode it using 
# 'ascii' and fails
# problem 2: even if it worked, the result will be ignored; it doesn't 
# update html in situ, it returns a function result.
# problem 3: "ignore" with UTF-n: any valid unicode object 
# should be encodable in UTF-n; error implies end of the world,
# don't try to ignore it. Don't just whack in "ignore" willy-nilly,
# put it in only with a comment explaining your very cogent reasons for doing so.
# "ignore" with most other encodings: error implies that you are mistaken
# in your choice of encoding -- same advice as for UTF-n :-)
# "ignore" with decode latin1 aka iso-8859-1: error implies end of the world.
# Irrespective of error or not, you are probably mistaken
# (needing e.g. cp1252 or even cp850 instead) ;-)
4 голосов
/ 02 марта 2010

Если у вас есть строка line, вы можете использовать метод .encode([encoding], [errors='strict']) для строк для преобразования типов кодирования.

line = 'my big string'

line.encode('ascii', 'ignore')

Для получения дополнительной информации об обработке ASCII и Unicode в Python, это действительно полезный сайт: https://docs.python.org/2/howto/unicode.html

3 голосов
/ 15 января 2017

Я думаю, что ответ есть, но только по частям, что затрудняет быстрое решение проблемы, такой как

UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 2818: ordinal not in range(128)

Давайте рассмотрим пример. Предположим, у меня есть файл, содержащий некоторые данные в следующем виде (содержащие символы ascii и non-ascii)

1/10/17, 21:36 - Земля: Добро пожаловать ��

и мы хотим игнорировать и сохранять только символы ascii.

Этот код будет делать:

import unicodedata
fp  = open(<FILENAME>)
for line in fp:
    rline = line.strip()
    rline = unicode(rline, "utf-8")
    rline = unicodedata.normalize('NFKD', rline).encode('ascii','ignore')
    if len(rline) != 0:
        print rline

и тип (rline) даст вам

>type(rline) 
<type 'str'>
1 голос
/ 05 сентября 2014
unicodestring = '\xa0'

decoded_str = unicodestring.decode("windows-1252")
encoded_str = decoded_str.encode('ascii', 'ignore')

У меня работает

...