Я заметил, что при нормализации строки Unicode в форме NFKC символы верхнего индекса, такие как ¹
(U + 00B9), ²
(U + 00B2), ³
(U + 00B3) и т. Д., Преобразуются в соответствующая цифра ASCII (например, 1
, 2
, 3
и т. д.).
Кто-нибудь знает обоснование такого поведения? Похоже, что он теряет информацию в процессе. Например, верхний индекс обычно имеет некоторое контекстное значение.