Краткое изложение основных символов
Enclosed Alphanumerics U+2460 - U+2473
" U+2474 - U+24E9*
" U+24EA - U+24FF
Miscellaneous Symbols U+2600 - U+2607
" U+2618 - U+2618
" U+260E - U+260F
" U+2614 - U+2615
" U+263D - U+2653
" U+2660 - U+266F
Symbols and punctuation U+3000 - U+303F
Hiragana U+3040 - U+309F
Katakana U+30A0 - U+30FF
Katakana phonetic U+31F0 - U+31FF
Enclosed letters and months U+321F - U+325F*
" U+3280 - U+32FF*
Unified Ideographs ext. A U+3400 - U+4DB5
Unified Ideographs U+4E00 - U+9FBB
Compatability ideographs U+F900 - U+FAFF
Compatability forms U+FE30 - U+FE4F
Full-Width Roman U+FF00 - U+FF5E
Half-Width Katakana U+FF61 - U+FF9F
Full- and Half-Width Symbols U+FFE0 - U+FFEE
Unified Ideographs ext. B U+20000 - U+2A6D6
Compatability ideographs supplement U+2F800 - U+2FA1F
* = Lower priority
Полное объяснение
Не забудьте про латинские буквы полной ширины, которые часто используются для латинского алфавита на японском языке (FF00-FF5E) и катакана страниц половинной ширины (FF61-FF9F). Возможно, вам также понадобятся символы полной и половинной ширины (FFE0-FFEE).
Можно привести аргумент, что страница аннотации Канбуна (3190-319F), как правило, не будет использоваться. Канбун - это старый стиль японского языка, в котором используются все китайские иероглифы (не хирагана и не катакана) с другим набором правил грамматики, которые обычно преподаются в школе. Эти пометки не будут использоваться, если кто-то не попытается объяснить, как читать / понимать один из этих отрывков, что, вероятно, маловероятно. Это может быть включено для полноты, но, вероятно, не является высоким приоритетом.
CJK Compatability (3300-33FF) обычно используется газетами в печатных СМИ, но почти наверняка не будет использоваться средней публикой (я еще не видел ее на веб-сайте). В любом случае они имеют эквивалентные длинные формы (например, ム можно записать как グ ラ ム вместо этого), так что это также относится к несущественной категории.
Дополнение к радикалам CJK (2E80-2EFF) также несущественно, но его можно использовать. Они не полные персонажи, а «радикальные» (базовая часть) персонажей. Они могут использоваться для объяснения происхождения символа, но вряд ли будут использоваться при обычном применении языка.
CJK Strokes (31C0-31E3) - это то же самое, что и дополнение к радикалам CJK, и, вероятно, вероятность его использования в повседневной жизни еще меньше.
Первая часть вложенных букв и месяцев CKJ (3200-321E) не нужна. Это корейские символы. То же самое с (3260-327F). На остальной части страницы низкий уровень использования, но я бы включил его для полноты, потому что кто-то , вероятно, будет иногда пытаться использовать один из них. Но вы можете считать их более низким приоритетом.
Остальные, которые вы назвали в своем первоначальном списке, являются существенными.
В списке также отсутствуют буквенно-цифровые символы (2460-24FF). Числа в кружках (2460-2473 и 24EA-24FF) используются относительно часто. Однако обведенный кружком алфавит, заключенные в скобки числа и период чисел (2474-24E9) могут быть опущены как несущественные.
Кроме того, было бы неплохо включить Разные символы (2600-263C), хотя некоторые используются чаще, чем другие. Абсолютно необходимыми являются некоторые из символов погоды (2600-2607), трилистник (2618), телефоны (260E-260F), зонтик и горячий напиток (2614-2615), астрологические символы и знаки зодиака (263D-2653), а также игра карты, горячие источники и музыкальные символы (2660-266F).