Сколько существует действительных символов utf8? - PullRequest
2 голосов
/ 02 ноября 2011

Я знаю, что это немного расплывчато, поэтому для контекста подумайте о нем как о «персонаже, которого вы можете написать в Твиттере» или о чем-то в этом роде.Мой вопрос состоит в том, сколько допустимых символов Unicode существует, которые может разрешить браузер или служба, поддерживающая utf8, таким образом, чтобы браузер utf8 мог копировать и вставлять его без каких-либо проблем.

Я думаю, что яне хочу - это полное пространство символов, потому что я знаю, что большая его часть зарезервирована для командных символов или зарезервированных символов, которые не будут отображаться (если я не ошибаюсь!).

1 Ответ

5 голосов
/ 02 ноября 2011

UTF-8 не является важным фактором, поскольку все стандартные кодировки Unicode (UTF-8, UTF-16, UTF-32) кодируют одно и то же пространство символов, просто по-разному.

Из вашего объяснения я вижу, что вы не хотите, чтобы 1,112,064 действительных кодовых точек Unicode?

Unicode 6.0 и ISO / IEC 10646: 2010 определяют 109,449 символов, но несколько из них - это то, что вы называете "персонажи".Какие из них попадают или не попадают в эту категорию, зависит от того, как вы считаете.Копирование и вставка могут привести к тому, что некоторые символы будут рассматриваться как идентичные друг другу, или могут вообще игнорироваться, в зависимости от ОС и программ, выполняющих копирование и вставку.

Однако, поскольку Unicode поддерживает прямую совместимость, некоторые системы будут корректно работатьсохранить символы, которые еще не были назначены.В конце концов, только то, что вы работаете в Windows XP и копируете и вставляете документ с символами, которые не были стандартизированы до 2009 года, не означает, что вы ожидаете, что они исчезнут.При таком способе мышления может быть миллион или около того дополнительных символов, хотя в некоторых местах их внешний вид может быть неразличим.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...