Извлечение кириллицы в Python / Django - PullRequest
0 голосов
/ 11 марта 2012

Я использую urllib2, чтобы открыть русский сайт и извлечь из него текст.Тем не менее, вместо того, чтобы выступать в роли «Беллона», он выходит в роли «Бессмертный».Какой самый простой способ обойти это?

Ответы [ 2 ]

2 голосов
/ 11 марта 2012

Выясните, какую кодировку использует веб-страница (вероятно, utf-8 или ISO 8859-5), и преобразуйте текст в кодировку Unicode, например:

ustring = unicode(read_string, encoding=...)

Если вам необходимо определить кодировку веб-страницыдинамически см. этот SO ответ.

1 голос
/ 11 марта 2012

Попробуйте это:

doc = urllib.open('http://yandex.ru').read()
doc = doc.decode('utf-8')

Вот и все;)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...