Определить кодировку текста - PullRequest
1 голос
/ 28 января 2011

Я получаю странные символы в ответ на веб-страницу.Я уверен, что это сообщение на русском языке, но кодирование кажется странным.Информация на веб-странице говорит мне, что кодировка ISO-8859-1.Вот пример ответа.

Âû ñòðàíè÷êå ïðåâüþøêàìè

Есть ли способ расшифровать этот ответ?Является ли ответ спасенным вообще.

Ответы [ 2 ]

4 голосов
/ 28 января 2011

Похоже, кодировка на самом деле кириллица Windows-1251. Переключите кодировку веб-браузеров соответственно.

Например, текст, который вы указали в этой кодировке:

Вы страничке превьюшками

, что, как говорит автоматический перевод, означает «Предварительный просмотр вашей страницы».

3 голосов
/ 28 января 2011

Вряд ли возможно автоматически распознавать 8-битные кодировки, потому что все комбинации байтов технически допустимы. В этом случае, я почти уверен, что это Windows-1251 , потому что символы там весьма значимы:

Вы страничке превьюшками

Это явно не ISO-8859-1.

Для преобразования этого в строку Unicode используйте метод decode:

b = "Âû ñòðàíè÷êå ïðåâüþøêàìè".encode("Latin-1")  # simulate the incoming byte string
u = b.decode("Windows-1251")
print(u)
...