Важен ли порядок, в котором объединяющиеся диакритические знаки появляются после кодовой точки? - PullRequest
3 голосов
/ 31 мая 2011

Интересно, меняет ли порядок расположения диакритических знаков после кодовой точки способ размещения диакритических знаков над или под символом; или если есть другая семантическая разница.

Указывает ли нормализация какой-либо способ переупорядочения диакритических знаков, e. г. ускорить сравнение строк?

Ответы [ 2 ]

6 голосов
/ 31 мая 2011

Согласно этой статье Википедии порядок объединения символов в некоторых случаях является релевантным и должен быть нормализован, как указано в других случаях.

Конкретно порядок объединения символов с одинаковым объединениемкласс должен быть сохранен (т. е. он уместен), а группы символов должны быть отсортированы по классу объединения.

3 голосов
/ 01 июня 2011

Да, это важно, и это должно быть для того, чтобы сделать некоторые случаи однозначными:

  • Нормальная форма D: U, U + 0308, U + 0304 ->Нормальная форма C U + 01D6 Латинская строчная буква U с диарезом и макроном ǖ

  • Нормальная форма D: U, U + 0304, U + 0308 -> Нормальная форма C U+ 1E7B Латинская строчная буква U с макронами и диарезом

В целом, в комбинированном классе вы начинаете ближе к букве и отдаляетесь от нее.

...