Как «сгладить» / укоротить диакритические знаки в Юникоде - PullRequest
0 голосов
/ 25 февраля 2019

У меня есть текст Unicode, написанный с использованием длинной формы для диакритических символов, что означает č, например, если записано как c (1 байт в UTF-8) плюс ˇ (2 байта в UTF-8).Мне нужно преобразовать это в один символ č (2 байта в UTF-8).

Размер не является проблемой, но многие шрифты не отображают это правильно.Возможно, я мог бы написать конвертер самостоятельно, но я подумал, что это будет распространенной проблемой, поэтому, возможно, есть один в сети, но я не смог его найти.

Каков наилучший способ сделать это преобразование?Делать это вручную (загружать файл в онлайн-конвертер) хорошо, мне нужно сделать это только один раз.

...