Транслитерация из эфиопской (и других) в ASCII (ሀ -> га; ü -> уэ) - PullRequest
1 голос
/ 10 сентября 2010

Я пока не очень хорошо читаю амхарские (геэзские / эфиопские) буквы.

Если у меня есть текст буквами геэзских (эфиопских) (http://en.wikipedia.org/wiki/Ge%27ez_language), я хочу транслитерироватьих в ASCII.

Когда я захожу с браузером LYNX Textmode на http://www.addismap.com/am/ (веб-страница на амхарском языке), он показывает мне «карта edis: yeedis ebeba karta».Как я могу получить доступ к этой функции, например, в Python, Bash или PHP?Какой API они используют?

Кажется, это не iconv:

$ iconv -f UTF-8 -t ASCII//TRANSLIT
Input:    ሀ ለ ሐ መ ሠ ረ ሰ
Output:   ? ? ? ? ? ? ?

Ответы [ 2 ]

2 голосов
/ 16 октября 2010

ICU http://icu -project.org / имеет амхарско-латинское преобразование, которое превратит ваш текст в «hā le ḥ me mešš re se». Вы можете использовать это, используя uconv -x 'Amharic/BGN-Latin' из командной строки, или использовать pyicu .

0 голосов
/ 10 сентября 2010

Хранилище данных Unicode Common Locale определяет некоторые транслитерации. Unidecode (или его Python порт ) имеет еще больше из них.

...