Список букв Unicode - PullRequest
       28

Список букв Unicode

5 голосов
/ 30 января 2011

Мне нужен список диапазонов символов Unicode со свойством Alphabetic, как определено в http://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabetic. Однако я не могу найти их в базе данных символов Unicode независимо от того, как я их ищу. Кто-нибудь может предоставить их список или просто средство поиска для символов с указанными свойствами Unicode?

Ответы [ 4 ]

12 голосов
/ 30 января 2011

База данных символов Unicode включает все текстовые файлы в дистрибутиве.Это не просто файл, каким он был когда-то давно.

Алфавитное свойство является производным свойством.

Вы действительно не хотите использовать диапазоны кодовых точек для этого.Вы хотите правильно использовать свойство .Это потому, что их слишком много.Используя скрипт unichars , мы узнаем, что только на одной базовой многоязычной плоскости более десяти тысяч не , считая хань или хангыль:

$ unichars '\p{Alphabetic}' | wc -l
   10052

Если мы включим остальные 16 астральных планов, то теперь у нас четырнадцать тысяч:

$ unichars -a '\p{Alphabetic}' | wc -l
   14736

И если мы включим Хан и Хангул, что на самом деле имеет свойство алфавита, мы просто взорвемот сотен тысяч кодовых точек:

$ unichars -ua '\p{Alphabetic}' | wc -l
  101539

Я надеюсь, вы видите, что вы не хотите специально перечислить их, используя диапазоны кодовых точек.Вниз по этой дороге лежит безумие.

Кстати, если вы найдете unichars script полезным, вам также могут понравиться uniprops script и, возможно, uninames script .

2 голосов
/ 30 января 2011

Цитата из вашего источника: Generated from: Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic

Эти сокращения, кажется, объяснены здесь .

2 голосов
/ 30 января 2011

Производные свойства ядра могут быть рассчитаны из других свойств.

Алфавитное свойство определяется как: Генерируется из: Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic

Итак, если вы возьмете все символы в Lu, Ll, Lt, Lm, Lo, Nl и все символы со свойством Other_Alphabetic, у вас будут буквенные символы.

1 голос
/ 30 января 2011

Я нашел веб-приложение UniView , которое предоставляет удобный интерфейс поиска.Поиск свойства Letter (при отключенном Local) дает 14723 результатов ...

...