Область личного пользования в Юникоде
Вы спросили:
но почему их два?
Их не два. Существует один официально обозначенный символ (U+1F637
), другой (U+E40C
) - это номер «личного пользования», который любой может неофициально назначить любому персонажу.
Кодовые точки Unicode используют диапазон более миллиона чисел.
- Только десятая часть, более 113 000 из которых были официально назначены на определенный c символ.
- Широкие диапазоны зарезервированы для Частные области использования (PUA) . Подобно тому, как природный заповедник откладывает свойство с намерением, что оно никогда не будет разработано, эти частные диапазоны чисел никогда не будут официально назначены персонажу.
- Остальные миллионные числа просто не назначены, ожидая когда-нибудь быть официально назначенным персонажем консорциумом Unicode .
Числа в частных зонах могут использоваться любыми сторонами, которые согласны с их семантикой. Любой человек может назначить любой символ, который он хочет, любому номеру в приватном диапазоне. После заключения собственного частного соглашения эти стороны могут безопасно обмениваться данными, используя эти кодовые точки, зная, что они никогда не будут внезапно переосмыслены будущим программным обеспечением в качестве официальных символов.
Зачем кому-то это делать? Сторонами могут быть ученые, занимающиеся исследованием и документированием неясного языка, еще не признанного консорциумом Unicode. Или они могут быть фанатами вымышленного языка, например Klingon , который не соответствует требованиям для официального включения в Unicode. Или это могут быть люди, которые хотят изобрести новый emoji неофициально. Во всех этих случаях сторонам, использующим частные области, необходимо реализовать шрифт с глифами для их неофициальных символов.
Некоторые люди, не входящие в Консорциум Unicode, координируют свои усилия по публичному назначению персонажей, не охватываемых Unicode, в различных диапазонах в зонах частного использования. Они могут опубликовать sh реестр, чтобы другие знали об этом. Но такие назначения, конечно, не являются официальными, и соответствие необязательно.
Ваш номер U+E40C
(десятичный 58,380) относится к диапазону номеров Private Use . Этот персонаж, возможно, часто использовался разными людьми в качестве смайлика для лица в старину. Но этот номер никогда не назначался официально Консорциумом Unicode. И при этом это никогда не будет назначено, потому что это отведено для частного использования.
U+1F637
= FACE WITH MEDICAL MASK
= ?
U + 1F637 (десятичное число 128 567) было официально назначено Консорциумом Unicode в Unicode 6.0 в 2010 году как ЛИЦО С МЕДИЦИНСКОЙ МАСКОЙ .
Кодировка
Вы спросили:
Как перейти от дескриптора Unicode к двоичному представлению символа, а затем к представлению UTF-16?
Чтобы кодировать это число, см. Answer by Ben .