мне кажется, что нет кодировки, нормализации или представления, где один символ был бы одной кодовой точкой в каждом случае в Юникоде. Это правильно?
Зависит от значения значения слова «символ». Юникод имеет понятия абстрактный символ (определение 7 в главе 3 стандарта: «Единица информации, используемая для организации, контроль или представление текстовых данных ») и кодированный символ (определение 11:« Ассоциация (или отображение) между абстрактным символом и кодовой точкой »). Таким образом, символ никогда не является кодовой точкой, но для многих кодовых точек существует абстрактный символ, который отображается на кодовую точку, причем это отображение называется «закодированный символ». : «Один абстрактный символ также может быть представлен последовательностью кодовых точек»
Верно ли это и для базовой многоязычной плоскости?
Нет никаких концептуальных различий, связанных с абстрактными или закодированными символами, между BMP и другими плоскостями. Вышеприведенное утверждение верно для всех подмножеств кодового пространства.
В зависимости от вашего приложения вы должны различать термины глиф , графемный кластер , графем , абстрактный символ , кодированный символ , кодовая точка , скалярное значение , кодовая единица и байт . Все эти понятия различны, и между ними нет простого отображения. В частности, между этими сущностями почти никогда не происходит взаимно-однозначного сопоставления.