Национальные (не арабские) цифры в Юникоде? - PullRequest
7 голосов
/ 17 сентября 2010

Я знаю, что юникод содержит все символы из большинства мировых афабец ... но как насчет цифр?Являются ли они частью Unicode или нет?Я не смог найти прямой ответ.Спасибо

Ответы [ 6 ]

10 голосов
/ 17 сентября 2010

Как уже говорилось, индо-арабские цифры (0,1, .., 9) включены в Unicode, унаследованные от ASCII. Если вы говорите о представлении чисел на других языках, ответ все равно положительный, они также являются частью Unicode.

//numbers (0-9) in Malayalam (language spoken in Kerala, India)
൦ ൧ ൨ ൩ ൪ ൫ ൬ ൭ ൮ ൯  
//numbers (0-9) in Hindi (India's national language)
० १ २ ३ ४ ५ ६ ७ ८ ९ 

Вы можете использовать \p{N} или \p{Number} в регулярном выражении, чтобы соответствовать любому типу числового символа в любом скрипте .

Этот документ (Страница-3) описывает кодовые точки Unicode для цифр малаялам.

3 голосов
/ 17 сентября 2010

Короче говоря: да, конечно.В UNICODE есть три категории, содержащие различные представления цифр и чисел:

  • Число, Десятичная цифра ( символов ) - например, арабские, тайские, деванагари цифры;
  • Число, Буква ( символы ) - например, римские цифры;
  • Число, Другое ( символы) - например, дроби.
2 голосов
/ 17 сентября 2010

Точки Unicode ниже 128 точно такие же, как ASCII, поэтому, да, они находятся в диапазоне от U + 0030 до U + 0039 включительно.

1 голос
/ 17 сентября 2010

Вы можете ответить на этот вопрос самостоятельно: если бы они не были частью Юникода, это значительно уменьшило бы полезность Юникода, вы так не думаете?

По сути, любой текст, который должен использовать числане может быть представлен с использованием кодовых точек Unicode.(Это предполагает, что вы не переключаетесь между разными кодировками символов в одном тексте: я не знаю ни одного программного обеспечения / языка программирования, который бы это поддерживал, и по уважительной причине.)

Если таковойВозникают вопросы, вам крайне необходимо прочитать Абсолютный минимум, который должен знать каждый разработчик программного обеспечения Абсолютно, положительно знать о юникоде и наборах символов (без извинений!) от Джоэла Спольски.Шутки в сторону.Иди прочитай.

1 голос
/ 17 сентября 2010

Да, я так думаю: Информация, полученная здесь

U+0030  0   30  DIGIT ZERO
U+0031  1   31  DIGIT ONE
U+0032  2   32  DIGIT TWO
U+0033  3   33  DIGIT THREE
U+0034  4   34  DIGIT FOUR
U+0035  5   35  DIGIT FIVE
U+0036  6   36  DIGIT SIX
U+0037  7   37  DIGIT SEVEN
U+0038  8   38  DIGIT EIGHT
U+0039  9   39  DIGIT NINE
1 голос
/ 17 сентября 2010

Да, они есть - кодовые точки 0030 до 0039 , как вы можете видеть, например, на decodeunicode.org

btw, кодовые точки 0000-007E такие же, как ASCII(0-127, 128+ больше не ASCII), поэтому все, что вы можете найти в ASCII, вы можете найти в Unicode.

...