Каков минимальный набор символов Юникода для разумной поддержки японского языка? - PullRequest
7 голосов
/ 03 апреля 2009

У меня есть мобильное приложение, которое нужно перенести для японской аудитории. Частью приложения является файл нестандартного шрифта, который необходимо расширить, чтобы он содержал только символы латинского алфавита-1, а также символы японского языка. Я понимаю, что это сделает его довольно большим, но это не сегодняшняя проблема.

Обратите внимание, что у меня нет контроля над текстом, который будет отображаться этим приложением, поэтому оно должно иметь достаточную поддержку, чтобы отображать пользовательский контент.

Вот то, что я считаю максимальным набором юникодных диапазонов, который охватывал бы все, что от него требуется.

 Compatability                         U+3300  -  U+33FF
 Compatability forms                   U+FE30  -  U+FE4F
 Compatability ideographs              U+F900  -  U+FAFF
 Compatability ideographs supplement  U+2F800  - U+2FA1F
 Radicals supplement                   U+2E80  -  U+2EFF
 Strokes                               U+31C0  -  U+31EF
 Symbols and punctuation               U+3000  -  U+303F
 Unified Ideographs                    U+4E00  -  U+9FBB
 Unified Ideographs ext. A             U+3400  -  U+4DB5
 Unified Ideographs ext. B            U+20000  - U+2A6D6
 Enclosed letters and months           U+3200  -  U+32FF
 Hiragana                              U+3040  -  U+309F
 Kanbun                                U+3190  -  U+319F
 Katakana                              U+30A0  -  U+30FF
 Katakana phonetic                     U+31F0  -  U+31FF

Что мне нужно знать, это:

  • Чего-то не хватает в этом списке?
  • Что-то явно не требуется?
  • Является ли что-либо, возможно, несущественным, и почему это можно утверждать как таковое?

Ответы [ 2 ]

13 голосов
/ 03 апреля 2009

Краткое изложение основных символов

Enclosed Alphanumerics                U+2460  -  U+2473
            "                         U+2474  -  U+24E9*
            "                         U+24EA  -  U+24FF
Miscellaneous Symbols                 U+2600  -  U+2607
            "                         U+2618  -  U+2618
            "                         U+260E  -  U+260F
            "                         U+2614  -  U+2615
            "                         U+263D  -  U+2653
            "                         U+2660  -  U+266F
Symbols and punctuation               U+3000  -  U+303F
Hiragana                              U+3040  -  U+309F
Katakana                              U+30A0  -  U+30FF
Katakana phonetic                     U+31F0  -  U+31FF
Enclosed letters and months           U+321F  -  U+325F*
            "                         U+3280  -  U+32FF*
Unified Ideographs ext. A             U+3400  -  U+4DB5
Unified Ideographs                    U+4E00  -  U+9FBB
Compatability ideographs              U+F900  -  U+FAFF
Compatability forms                   U+FE30  -  U+FE4F
Full-Width Roman                      U+FF00  -  U+FF5E
Half-Width Katakana                   U+FF61  -  U+FF9F
Full- and Half-Width Symbols          U+FFE0  -  U+FFEE
Unified Ideographs ext. B            U+20000  - U+2A6D6
Compatability ideographs supplement  U+2F800  - U+2FA1F

* = Lower priority

Полное объяснение

Не забудьте про латинские буквы полной ширины, которые часто используются для латинского алфавита на японском языке (FF00-FF5E) и катакана страниц половинной ширины (FF61-FF9F). Возможно, вам также понадобятся символы полной и половинной ширины (FFE0-FFEE).

Можно привести аргумент, что страница аннотации Канбуна (3190-319F), как правило, не будет использоваться. Канбун - это старый стиль японского языка, в котором используются все китайские иероглифы (не хирагана и не катакана) с другим набором правил грамматики, которые обычно преподаются в школе. Эти пометки не будут использоваться, если кто-то не попытается объяснить, как читать / понимать один из этих отрывков, что, вероятно, маловероятно. Это может быть включено для полноты, но, вероятно, не является высоким приоритетом.

CJK Compatability (3300-33FF) обычно используется газетами в печатных СМИ, но почти наверняка не будет использоваться средней публикой (я еще не видел ее на веб-сайте). В любом случае они имеют эквивалентные длинные формы (например, ム можно записать как グ ラ ム вместо этого), так что это также относится к несущественной категории.

Дополнение к радикалам CJK (2E80-2EFF) также несущественно, но его можно использовать. Они не полные персонажи, а «радикальные» (базовая часть) персонажей. Они могут использоваться для объяснения происхождения символа, но вряд ли будут использоваться при обычном применении языка.

CJK Strokes (31C0-31E3) - это то же самое, что и дополнение к радикалам CJK, и, вероятно, вероятность его использования в повседневной жизни еще меньше.

Первая часть вложенных букв и месяцев CKJ (3200-321E) не нужна. Это корейские символы. То же самое с (3260-327F). На остальной части страницы низкий уровень использования, но я бы включил его для полноты, потому что кто-то , вероятно, будет иногда пытаться использовать один из них. Но вы можете считать их более низким приоритетом.

Остальные, которые вы назвали в своем первоначальном списке, являются существенными.

В списке также отсутствуют буквенно-цифровые символы (2460-24FF). Числа в кружках (2460-2473 и 24EA-24FF) используются относительно часто. Однако обведенный кружком алфавит, заключенные в скобки числа и период чисел (2474-24E9) могут быть опущены как несущественные.

Кроме того, было бы неплохо включить Разные символы (2600-263C), хотя некоторые используются чаще, чем другие. Абсолютно необходимыми являются некоторые из символов погоды (2600-2607), трилистник (2618), телефоны (260E-260F), зонтик и горячий напиток (2614-2615), астрологические символы и знаки зодиака (263D-2653), а также игра карты, горячие источники и музыкальные символы (2660-266F).

0 голосов
/ 03 февраля 2012

Технически говоря, вы должны включать: 1. Арабские цифры (0,1..9) 2. Английская пунктуация (! "# $% '...) 3. Римские буквы (A..Z, a..z) (полуширина и полная ширина)

1-3 в основном означает поддержку ASCII.

  1. хираган
  2. катакан
  3. Японская пунктуация
  4. Joyo Kanji (Это список из примерно 2000 кандзи, утвержденных правительством Японии для использования в газетах и ​​т. Д.)
  5. Имя Кандзи (еще один список, составленный правительством Японии для имен собственных).

Все вместе, это даст вам 2600 кандзи или что-то в этом роде, и вы сможете представлять самые обычные вещи, которые вы можете найти в Интернете. Есть некоторые незначительные исключения, когда символы являются общими, но не в Joyo (например, 沢).

Проблема в том, что Unicode не совсем организован вокруг списка Joyo kanji, поэтому вам придется выбирать в пределах диапазонов. Вероятно, проще включить все кандзи, которые существуют на японском языке, даже если они не часто используются или являются частью Joyo.

...