Важно, чтобы вы сначала поняли определенный аспект стандарта Unicode. Существуют два способа представления акцентированного символа, например ë
. Одна - это единая кодовая точка U+00EB
(латинская строчная буква E с диарезом), а вторая - две кодовые точки ̈e
, представляющая собой простую кодовую точку U+0065
(латинская строчная буква E, обычная буква e
) с другой кодовой точкой U+0308
(объединение диареза).
Теперь эти два символа одинаковы. Они просто построены по-другому. Это приводит к концепции под названием эквивалентность Unicode , которая нормализует (или канонизирует) эти два набора кодовых точек, чтобы быть эквивалентными.
Текст не канонизирован, поэтому один акцентированный код точка отличается от того же символа, сконструированного из сочетания ударения и буквы
. Это означает, что две акцентированные буквы ë
и ̈e
выше не эквивалентны в языке spe c. Первый - это «один акцентированный код» U+00EB
, а второй - буква e
в сочетании с объединяющим диакритическим знаком c.
Для простоты этот документ используйте неквалифицированный термин «символ» для обозначения кодовой точки Unicode в исходном тексте
Это просто говорит: «Мы определяем только для этого документа термин« символ »означает единая кодовая точка Unicode. " Это сделано для удобства чтения, а не для определения чего-либо в спецификации языка, и поэтому оно «неквалифицированное».