Что зависит, когда персонаж оказывается в определенной «композиции»? - PullRequest
3 голосов
/ 30 июля 2011

В Юникоде символ может рассматриваться в разных «композициях».

Например, символ à с кодовой точкой U+00E0, он также состоит из двух кодовых точек: U+0061 в сочетании ссерьезный акцент U+0300.

, который оставил вопрос:

Что зависит, когда персонаж оказывается в определенной композиции?Я имею в виду: клавиатура?Кодирование?Скопированный текст?

Я знаю способ знать метасимвол \X, но мне бы хотелось, чтобы кто-то объяснил мне мои удивления.Спасибо.

1 Ответ

2 голосов
/ 30 июля 2011

В конечном счете, операционная система в зависимости от того, какую кодовую точку (точки) они сохраняют при нажатии клавиши, хотя существует соглашение в форме нормализованных форм (в частности, NFC):

http://en.wikipedia.org/wiki/Unicode_equivalence#Normalization

Копирует и вставляет копии кодовых точек, а не концепций графем (графема - это менее неоднозначный термин, поскольку символ может означать как графему, так и кодовую точку).

Если вы конвертируетеиз некоторого другого набора символов в Unicode, тогда преобразование будет определять, какие кодовые точки вы в конечном итоге получите, и почти всегда совпадает с тем, как исходный набор символов кодирует составные символы - где исходный набор символов имеет одну кодовую точку для LATIN A WITHUMLAUT, тогда и Unicode тоже.

...