База данных символов Unicode включает все текстовые файлы в дистрибутиве.Это не просто файл, каким он был когда-то давно.
Алфавитное свойство является производным свойством.
Вы действительно не хотите использовать диапазоны кодовых точек для этого.Вы хотите правильно использовать свойство .Это потому, что их слишком много.Используя скрипт unichars , мы узнаем, что только на одной базовой многоязычной плоскости более десяти тысяч не , считая хань или хангыль:
$ unichars '\p{Alphabetic}' | wc -l
10052
Если мы включим остальные 16 астральных планов, то теперь у нас четырнадцать тысяч:
$ unichars -a '\p{Alphabetic}' | wc -l
14736
И если мы включим Хан и Хангул, что на самом деле имеет свойство алфавита, мы просто взорвемот сотен тысяч кодовых точек:
$ unichars -ua '\p{Alphabetic}' | wc -l
101539
Я надеюсь, вы видите, что вы не хотите специально перечислить их, используя диапазоны кодовых точек.Вниз по этой дороге лежит безумие.
Кстати, если вы найдете unichars script полезным, вам также могут понравиться uniprops script и, возможно, uninames script .