Я работаю над некоторым приложением, которое требует сортировки японских языков.
Для сортировки японцев необходимо преобразовать катакану и кандзи в хирагану, а затем отсортировать по коду UTF-8.
Символы хирагана, катакана и кандзи должны быть объединены и отсортированы по эквивалентному «написанию» хираганы. Примечание: используя «алфавит» хираганы - а, я, и, е, о, ка, ки, ку, ке, ки и т. д.
Теперь, чтобы выполнить эту задачу, мне нужно:
1.Классифицируйте японские иероглифы как кандзи, катакана или хирагана.
2. Преобразование катаканы и кандзи в хирагану.
3. Применить алгоритм, который выполняет сортировку по фонетическому звуку (хирагана).
База данных приложения находится в UTF-8.
Теперь, чтобы выполнить 1-й шаг:
«Классифицируйте японские символы как кандзи, или катакана, так и хирагана».
Я хочу знать, есть ли какие-либо API-интерфейсы для языка программирования C или C ++ в Sqlite3, QT, ICU или любом другом пакете, который может дать Unicode of Character?
На основе Unicode мы можем легко классифицировать японские символы.
Пожалуйста, поправьте меня, если я ошибаюсь?