Добро пожаловать в программирование Unicode. То, что у вас есть, это «ПРАВИЛЬНАЯ ОДНОКВАЖНАЯ КВАРТИРА», возможно, из какого-то редактора текстовых документов, поскольку они обычно автоматически заменяют "
, '
и т. Д. c. с более точным значением c, основанным на контексте.
Если вам нужно иметь дело с Unicode, вы, вероятно, захотите использовать библиотеку Unicode или данные из unicode.org release, Хотя расшифровка самого UTF-8 проста, такие вопросы, как «это знак пунктуации?», «Это пробел?», «Это часть буквы?» и др c. не являются.
Специфическими c данными, которые вы хотите получить, я полагаю, является «Категория символов Unicode». Самые популярные категории:
- Буква
- Метка ( объединяющие символы , et c.)
- Число
- Знаки пунктуации
- Символ
- Разделитель (пробелы, абзац и т. Д. c.)
- Другое (управляющие коды и т. Д. c.)
Есть также много подкатегорий, хотя я не думаю, что они вам нужны. http://www.fileformat.info/info/unicode/category/index.htm, кажется, имеет хороший список для исследования в Интернете.
Основная проблема, вероятно, заключается в подсчете "гласных", поскольку он не очень хорошо переводится на все языки / сценарии. Потенциально вы можете «разложить» такие вещи, как Á, и рассчитывать только полученные буквы AEIOU для вашей цели.