Каковы диапазоны Юникода для символов хинди с акцентом? - PullRequest
4 голосов
/ 02 марта 2012

Я пытаюсь собрать список Unicode всех 'o' подобных фигур в наборе символов хинди. На самом деле, лучше использовать список любых символов (на любом языке), в которых для обозначения ударения используются отдельные символы.

Я собираюсь использовать этот юникод-лист в RegExp.

Я пытался редактировать список диапазонов символов, выводя их в поле ввода TextField, но редактирование этого текста вызывает странные проблемы (курсор не помещается на правильный символ, выборки внезапно исчезают / неправильно деформируются. .. другими словами ... ХИНДИ АД!)

Я тоже пробовал это делать с Notepad ++, но, хотя он был более отзывчивым, в конце концов он мне не понравился, как в текстовом поле Flash Player. Это, кажется, происходит особенно при удалении символов блока [] (null?). Некоторые из них вызывают странное поведение.

В любом случае, все, что я хочу, это список акцентов. Пример нескольких приведен на рисунке ниже (но мне понадобятся ВСЕ акценты):

enter image description here

Спасибо!

Ответы [ 3 ]

5 голосов
/ 02 марта 2012

Вы можете найти pdf-файлы, содержащие списки диапазонов Юникода, сгруппированные по языку, здесь: http://unicode.org/charts/

Для хинди вы, вероятно, захотите Деванагари или Деванагари Расширенный .

3 голосов
/ 02 марта 2012

Вот класс символов для комбинирующих меток Деванагари:

[\u901\u902\u903\u93c\u93e\u93f\u940\u941\u942\u943
 \u944\u945\u946\u947\u948\u949\u94a\u94b\u94c\u94d
 \u951\u952\u953\u954\u962\u963]

Это только основной блок Деванагари (не Devanagari Extended).

0 голосов
/ 04 марта 2012

Если вам нужен полный набор (для всех языков), вы можете сделать это проблематично.Вы начинаете с файла даты Unicode с ftp: //ftp.unicode.org/Public/6.1.0/ucd/UnicodeData.txt, описанного TR-44 (http://unicode.org/reports/tr44/#Property_Definitions)

Вы можете использовать поле Canonical_Combining_Class (см. http://unicode.org/reports/tr44/#Canonical_Combining_Class_Values), чтобы отфильтровать нужные вам символы. Не может быть более точным, потому что «акцент» немного расплывчатый :-) Возможно, вам даже придется взглянуть на General_Categoryчтобы правильно настроить фильтр (и исключить некоторые знаки, или символы, или знаки пунктуации).

И скрипт, выполняющий это, определенно был бы лучше, чем пытаться связываться с текстовыми редакторами. Одна из характеристик объединения символов заключается в том, чтоони объединяются :-) Таким образом, вы можете получить всевозможные удивительные результаты (например: http://www.siao2.com/2006/02/17/533929.aspx: -)

...