Как классифицировать японские иероглифы как кандзи, или катакана, так и хирагана? - PullRequest
2 голосов
/ 22 марта 2011

Я работаю над некоторым приложением, которое требует сортировки японских языков.

Для сортировки японцев необходимо преобразовать катакану и кандзи в хирагану, а затем отсортировать по коду UTF-8.

Символы хирагана, катакана и кандзи должны быть объединены и отсортированы по эквивалентному «написанию» хираганы. Примечание: используя «алфавит» хираганы - а, я, и, е, о, ка, ки, ку, ке, ки и т. д.

Теперь, чтобы выполнить эту задачу, мне нужно:

1.Классифицируйте японские иероглифы как кандзи, катакана или хирагана.

2. Преобразование катаканы и кандзи в хирагану.

3. Применить алгоритм, который выполняет сортировку по фонетическому звуку (хирагана).

База данных приложения находится в UTF-8.

Теперь, чтобы выполнить 1-й шаг: «Классифицируйте японские символы как кандзи, или катакана, так и хирагана».

Я хочу знать, есть ли какие-либо API-интерфейсы для языка программирования C или C ++ в Sqlite3, QT, ICU или любом другом пакете, который может дать Unicode of Character?

На основе Unicode мы можем легко классифицировать японские символы.

Пожалуйста, поправьте меня, если я ошибаюсь?

1 Ответ

2 голосов
/ 22 марта 2011
  1. Как вы говорите, японские символы можно легко отсортировать по группе с помощью Unicode.Это тривиально.

  2. Преобразование катаканы в хирагану также тривиально, поскольку существует однозначное сопоставление.Вы можете конвертировать кандзи в хирагану через Какаси

  3. Сортировка может быть выполнена путем преобразования в хирагану в первую очередь.Однако это бедный человек, так как многие кандзи являются гомофонами (один и тот же звук, разные кандзи).Поэтому вам следует отсортировать кандзи перед преобразованием и сортировкой по хирагане.

Вы не говорите, почему вам нужно выполнять сортировку таким образом.Может быть, есть лучший способ, который мы можем предложить, если вы расскажете нам больше о своем заявлении.

...