Почему нормализация NFKC теряет информацию о верхнем и нижнем индексах? - PullRequest
0 голосов
/ 27 апреля 2018

Я заметил, что при нормализации строки Unicode в форме NFKC символы верхнего индекса, такие как ¹ (U + 00B9), ² (U + 00B2), ³ (U + 00B3) и т. Д., Преобразуются в соответствующая цифра ASCII (например, 1, 2, 3 и т. д.).

Кто-нибудь знает обоснование такого поведения? Похоже, что он теряет информацию в процессе. Например, верхний индекс обычно имеет некоторое контекстное значение.

...