То, что вы хотите, определено в стандарте Unicode. Это называется общими категориями Unicode. Каждый символ Юникода находится в категории.
Веб-сайт Unicode предоставляет полный список символов , показывающий код, категорию и имя персонажа. Вы также можете найти полный список категорий Unicode .
-
- это U + 2D (ГИФЕН-МИНУС). Он указан как находящийся в категории «Pd» (пунктуация).
Если вы посмотрите на документацию для CharacterSet
, вы увидите punctuationCharacters
, который задокументирован как:
Возвращает набор символов, содержащий символы в общей категории Unicode P *.
Категория «Pd» включена в «P *» (что означает любую категорию «P»).
Я также нашел https://www.compart.com/en/unicode/category, который является сторонним списком каждого персонажа по категории. Чуть более удобен для пользователя, чем ссылка на Unicode.
Подводя итог. Если вы хотите узнать, какой CharacterSet
использовать для данного персонажа, найдите категорию персонажа, используя одну из диаграмм, которые я связал. Как только вы узнаете его категорию, посмотрите документацию для CharacterSet
, чтобы узнать, какой предопределенный набор символов применяется к этой категории.