Как получить глик Unicode-представление символа Unicode - PullRequest
0 голосов
/ 23 мая 2011

В Windows используется библиотека unscribe для замены символов арабского и индийского алфавита в зависимости от их местоположения. Новый глиф все еще имеет исходный юникод напечатанного символа, хотя у него есть свое специальное представление в Юникоде Как получить Unicode из того, что на самом деле отображается, а не того, что напечатано.

Ответы [ 2 ]

0 голосов
/ 28 мая 2011

Ваша интерпретация того, что происходит в Uniscribe, неверна.Если у вас есть глифы, исходная информация исчезла, то нет надежного способа вернуться к Юникоду.

Даже без перехода на арабский язык невозможно определить, есть ли глиф для лигатуры (например).из 'f' и 'i' (U + 0066 U + 0069) или из 'fi' (U + FB01).(http://www.fileformat.info/info/unicode/char/fb01/index.htm)

Кроме того, некоторые из полученных символов не имеют значения Unicode, связанного с ними, поэтому отсутствует «Unicode для того, что фактически отображается»

0 голосов
/ 25 мая 2011

Для этого есть множество инструментов, таких как ICU, Charmap и другие. Я сам рекомендую http://unicode.codeplex.com, он использует База данных символов Unicode для представления символов.

Обратите внимание, что юникод - это просто некоторая информация о символах, которая никогда не говорила о представлении. Они просто предлагают реализовать слово так же, как их пример. так что для просмотра каждого кода вам нужно Standard Unicode Font, например MS Arial Unicode , что является самым большим и лучшим выбором для платформы Windows.

Большинство символов реализовано в этом шрифте, но для новых символов вам необходимо обновить его (если есть такое обновление) или вы можете использовать шрифт, который, как вы знаете, реализовал символы вашего желания

...