Question

Я смотрел на кодировку китайских символов в Википедии, и у меня возникли проблемы с выяснением того, что они используют. Например, «的» кодируется как «% E7% 9A% 84» ( см. Здесь ). Это три байта, однако ни одна из кодировок, описанных на этой странице , не использует три байта для представления китайских символов. Например, UTF-8 использует 2 байта.

Я в основном пытаюсь сопоставить эти три байта с реальным символом. Любое предложение о том, что это может быть за кодировка?

jcomeau_ictx · Answer 1 · 10 апреля 2011


>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的

хотя Unicode кодирует его в 16 битах, utf8 разбивает его на 3 байта.

Adam · Answer 2 · 10 апреля 2011

Заголовок страницы википедии включает в себя следующее:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

Таким образом, страница имеет формат UTF-8.

lovasoa · Answer 3 · 01 декабря 2014

В качестве примера вы приводите IRI .

IRI используют кодировку UTF8. UTF8 реализует Unicode, а в Unicode каждый символ имеет кодовую точку , что составляет от 0x4E00 до 0x9FFF (2 байта) для всех китайских символов.

Но UTF8 не кодирует символы, просто сохраняя их кодовую точку (UTF32 делает это). Вместо этого он использует более сложный стандарт , который делает все китайские идеограммы 2 или 3 байтов.

Что такое кодировка китайских символов в Википедии?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Что такое кодировка китайских символов в Википедии?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы