Что такое кодировка китайских символов в Википедии? - PullRequest
22 голосов
/ 10 апреля 2011

Я смотрел на кодировку китайских символов в Википедии, и у меня возникли проблемы с выяснением того, что они используют. Например, «的» кодируется как «% E7% 9A% 84» ( см. Здесь ). Это три байта, однако ни одна из кодировок, описанных на этой странице , не использует три байта для представления китайских символов. Например, UTF-8 использует 2 байта.

Я в основном пытаюсь сопоставить эти три байта с реальным символом. Любое предложение о том, что это может быть за кодировка?

Ответы [ 3 ]

24 голосов
/ 10 апреля 2011

>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的

хотя Unicode кодирует его в 16 битах, utf8 разбивает его на 3 байта.

17 голосов
/ 10 апреля 2011

Заголовок страницы википедии включает в себя следующее:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

Таким образом, страница имеет формат UTF-8.

4 голосов
/ 01 декабря 2014

В качестве примера вы приводите IRI .

IRI используют кодировку UTF8. UTF8 реализует Unicode, а в Unicode каждый символ имеет кодовую точку , что составляет от 0x4E00 до 0x9FFF (2 байта) для всех китайских символов.

Но UTF8 не кодирует символы, просто сохраняя их кодовую точку (UTF32 делает это). Вместо этого он использует более сложный стандарт , который делает все китайские идеограммы 2 или 3 байтов.

...