Как называется 3-байтовая схема кодировки Unicode с переменной шириной? - PullRequest
0 голосов
/ 12 января 2012

Привет всем, мне было интересно, как называется схема кодирования Unicode, в результате чего:

Кодовые точки от U + 1 до U + 7F представлены одним байтом:

   Byte 1: 0xxxxxxx

Кодовые точки от U + 80 до U + 3FFF представлены двумя байтами:

   Byte 1: 0xxxxxxx
   Byte 2: 1xxxxxxx

Кодовые точки от U + 4000 до U + 10FFFF представлены тремя байтами:

   Byte 1: 0xxxxxxx
   Byte 2: 1xxxxxxx
   Byte 3: 1xxxxxxx

Из того, что я вижу, эта схема превосходит UTF-8, поскольку для представления каждой CodePoint требуется только один-три байта (для представления одной CodePoint требуется от 1 до 4 байтов), и мне было интересно, есть ли официальное название для этой кодировки.

1 Ответ

3 голосов
/ 05 марта 2012

Ваш фактический вопрос, по-видимому, «как зовут» этой кодировки. Несмотря на то, что трудно доказать отрицательный результат, я пойду и скажу, что никто другой не опубликовал и не назвал эту кодировку. Вы только что изобрели это. Таким образом, ваш ответ заключается в том, что эта кодировка не имеет имени. Придумайте имя для него, и это будет его именем.

Вы также добавляете: «Из того, что я вижу, эта схема превосходит UTF-8 ...». Там было обсуждение этого требования в комментариях. Если вы хотите опубликовать это как отдельный вопрос, например, «Является ли эта схема кодирования лучше, чем UTF-8», это было бы другим вопросом. Подсказка: если вы это сделаете, подумайте, какие критерии вы используете, чтобы измерить «лучше». Как вы думаете, ваша новая схема кодирования лучше, чем UTF-8 в соответствии с собственными критериями проектирования UTF-8 ?

...