Я загружаю веб-страницу (http://autoweek.com) и пытаюсь ее обработать, но получаю ошибку кодирования. Autoweek объявляет кодировку "iso-8859-1" и имеет слово "Nürburgring" (u с умляутом)
Я делаю:
# -*- encoding: utf-8 -*-
import urllib
webpage = urllib.urlopen(feed.crawl_url).read()
webpage.decode("utf-8")
выдает следующую ошибку:
'utf8' codec can't decode bytes in position 7768-7773: unsupported Unicode code range"
, если я пропускаю шаг .decode и выполняю какой-то синтаксический анализ с библиотекой lxml, возникает ошибка при сохранении проанализированного заголовка в базу данных:
'utf8' codec can't decode bytes in position 45-50: unsupported Unicode code range
В моей базе данных есть набор символов utf8 и параметры сортировки utf-general-ci
Мои настройки:
Джанго
Python 2.4.3
MySQL 5.0.22
MySQL-python 1.2.1
mod_python 3.2.8