Различные стандарты UTF - это способы кодирования «кодовых точек». Кодовая точка - это индекс в наборе символов Юникода.
Другая кодировка - UCS2, которая всегда 16-битная, и, следовательно, не поддерживает полный диапазон Unicode.
Полезно также знать, что одна кодовая точка не равна одному символу. Например, такой символ, как å, может быть представлен как в виде кодовой точки, так и в виде двух кодовых точек: один для a и один для кольца.
Сравнение двух строк Юникода, таким образом, требует нормализации для получения канонического представления перед сравнением.