Японский код ASCII - PullRequest
       33

Японский код ASCII

5 голосов
/ 26 ноября 2009

Где я могу получить список кодов ASCII, соответствующих символам японского иероглифа, хираганы и катаканы. Я делаю Java-функцию и Javascript, который определяет, японский ли это символ. Каков его диапазон в коде ASCII?

Ответы [ 7 ]

10 голосов
/ 26 ноября 2009

ASCII означает Американский стандартный код для обмена информацией, включает в себя только 128 символов (не все из них даже могут быть напечатаны) и основан на потребностях американского использования примерно в 1960 году. Он не имеет ничего общего с каким-либо Японские символы.

Я полагаю, вы хотите Юникод кодовые точки для некоторых символов, которые вы можете найти в диаграммах , предоставленных unicode.org.

6 голосов
/ 26 ноября 2009

Пожалуйста, смотрите мой похожий вопрос относительно символов кандзи / кана . Как упоминает @coobird, может быть сложно решить, с каким диапазоном вы хотите проверить, поскольку многие кандзи перекрываются с китайскими иероглифами.

Короче говоря, диапазоны Unicode для хираганы и катаканы:

  • Хирагана: Юникод: 3040-309F
  • Катакана: Юникод: 30A0–30FF

Если вы найдете этот ответ полезным, пожалуйста, upvote @ coobird и ответ на мой вопрос .

が ん ば っ て!

2 голосов
/ 26 ноября 2009

Японские символы не будут в диапазоне ASCII, они будут в Unicode. Что вы хотите, только значение символа для каждого символа?

0 голосов
/ 18 августа 2016

Ну, это было давно, но вот ссылка на таблицы хирагана, катакана, кандзи и т. Д. И их Unicodes ...

http://www.rikai.com/library/kanjitables/kanji_codes.unicode.shtml

НО, как вы, наверное, знаете, Unicodes шестнадцатеричные. Вы можете перевести их в десятичные числа с помощью Windows Calc в режиме программирования, а затем ввести это число в виде кода ASCII, и оно будет производить нужный вам символ, в зависимости от того, что вы вводите. Это будет в MS Wordpad и Word (не в блокноте).

Например, хирагана 30 - это 3041 в Юникоде. 3041 является шестнадцатеричным и переводится в 12353 в десятичном виде. Если вы введете 12353 в качестве кода ASCII в Wordpad или Word, т.е. удерживайте Alt, введите 12353 на цифровой клавиатуре, а затем отпустите Alt, он напечатает ぁ. Диапазон японских символов: Хирагана: 3040-309f (12352-12447 в ASCII), Катакана: 30a0 - 30ff (12448-12543 в ASCII), кандзи: 4e00-4DB5 (19968-19893 ASCII), поэтому существует несколько диапазоны. На этом графике также есть диапазон катаканы половинной ширины.

0 голосов
/ 23 мая 2013

Кандзи будет иметь свойство «Сценарий» Unicode Hani, хирагана будет иметь свойство «Сценарий» Hira, а катакана - «Сценарий» Kana. В Java вы можете определить свойство «Сценарий» символа с помощью класса Character.UnicodeScript: http://docs.oracle.com/javase/7/docs/api/java/lang/Character.UnicodeScript.html Я не знаю, можно ли определить свойство «Сценарий» символа в Javascript.

Конечно, большинство кандзи - это символы, которые также используются на китайском языке; учитывая символ, такой как 猫, невозможно определить, используется ли он в качестве символа китайского или японского символа.

0 голосов
/ 08 июня 2012

Я не буду перефразировать часть ASCII. Просто взгляните на код Unicode Code .

0 голосов
/ 26 ноября 2009

Я думаю, что вы подразумеваете под ASCII код для японского языка, это эквивалент SBCS (однобайтовый набор символов) на японском языке. Для японского языка у вас есть только MBCS (многобайтовые наборы символов), который содержит комбинацию однобайтовых символов и многобайтовых символов. Таким образом, для японского текстового файла, сохраненного в MBCS, у вас есть неяпонские символы (английские буквы и цифры и обычные не алфавитно-цифровые символы), сохраненные как один байт, и японские символы, сохраненные как два байта.

Предполагается, что вы не имеете в виду UNICODE , который является унифицированным DBCS (двухбайтовый набор символов), где каждый символ равен ровно двум байтам. На самом деле, чтобы быть более точным, в последнее время UNICODE также имеет несколько DBCS, потому что набор символов не может больше вместить другие символы. Некоторые символы UNICODE состоят из 4 байтов, в которых первые два байта уже имеют ведущий символ.

Если вы имеете в виду Первый (MBCS), а не UNICODE, то существует множество японских символов, таких как Shift-JIS (более популярный). Поэтому я предлагаю вам поискать карту символов Shift-JIS. Хотя есть и другие японские наборы символов карты помимо Shift-JIS.

...