полный список всех индексов и диакритических знаков в юникоде - PullRequest
0 голосов
/ 29 декабря 2011

Ответ: http://www.unicode.org/Public/UNIDATA/UnicodeData.txt - это список всех символов Юникода, а 0xcc99 # U + 0319 КОМБИНИРОВАНИЕ ПРАВЫЙ ШАГ НИЖЕ напоминает запятую для моноширинного шрифта.* Имеется ли полный список всех символов Юникода вместе с их словесными описаниями, например, списком строк вроде ... 0xcc99 # U + 0319 КОМБИНИРОВАНИЕ ПРАВИЛЬНО НАЖМИТЕ НИЖЕ.*

В частности, какую диакритическую метку я должен использовать для ввода 1. или 2 o 3?Мотивация заключается в том, что я хочу иметь возможность добавлять точку или запятую шрифтом моноширинный в терминале без фактического добавления символа.

Ответы [ 3 ]

2 голосов
/ 29 декабря 2011

Нет полного списка всех символов Unicode вместе с их словесными описаниями, даже нет списка их с именами Unicode. Файлы UnicodeData.txt в общем относятся к большому диапазону символов, например,

4E00;<CJK Ideograph, First>;Lo;0;L;;;;;N;;;;;
9FCB;<CJK Ideograph, Last>;Lo;0;L;;;;;N;;;;;

и

AC00;<Hangul Syllable, First>;Lo;0;L;;;;;N;;;;;
D7A3;<Hangul Syllable, Last>;Lo;0;L;;;;;N;;;;;

Можно было бы построить полный список с именами Юникода, но какова будет цель? Имена Unicode, такие как COMBINING PALATALIZED HOOK НИЖЕ, являются идентификаторами, а не описаниями. Взятые как английские тексты, некоторые из них интуитивно понятны, некоторые очень расплывчаты, некоторые неясны, а некоторые совершенно неверны - и никогда не будут изменены из-за принципа стабильности. Принцип во многом обусловлен использованием имен Unicode в программах; они не должны быть изменены по тем же причинам, по которым номера Unicode не должны изменяться.

Некоторые из названий Unicode для диакритических знаков также вводят в заблуждение или по крайней мере неполны. Форма диакритического знака не может быть выведена из одного только имени Unicode, и форма может даже сильно отличаться (например, t с caron - это ť в нижнем регистре, с диакритическим символом, похожим на конну, тогда как соответствующая заглавная буква Ť имеет .. ... хорошо, как у Caron, как у Caron).

Использование таких символов, как U + 0319 и U + 0321, в текстовых данных означает, что потребуется относительно обширный шрифт и относительно продвинутого программного обеспечения для рендеринга, которое хорошо отображает комбинацию диакритических знаков. Более того, если вы намереваетесь использовать их в значениях и контекстах, для которых они не предназначены (они предназначены для использования в фонетических обозначениях, где они связаны с буквами для обозначения особенностей произношения), вам может потребоваться программное обеспечение плохое который реализует их ненадлежащим образом (с учетом предполагаемого использования и рендеринга). Например, U + 0319 должен появиться ниже буква

0 голосов
/ 10 мая 2014

"мое приложение выглядит следующим образом: иногда я работаю в командной строке в xterm с программами, которые выводят длинные числа, которые мне трудно читать. Поэтому я хочу использовать диакритические знаки для добавления точек или запятых, так что 2938485860 становится 2.938.485.860 и форматируетсясохраняется. U + 0321 не очень подходит для этого .... "

Если вы хотите добавить точки к числам в строке, есть способ сделать это.В юникоде есть набор «Заключенных буквенно-цифровых символов» , который включает числа с завершающими периодами.

2.938.485.860 -> ⒉93⒏48⒌860

Обратите внимание, что в терминале этиможет быть нечитаемымВ качестве альтернативы вы можете попробовать

  • 2⑨38④85⑧60 - использовать кружечные числа на каждой третьей цифре (тоже безобразно)
  • 2̲9384̲8̲5̲860 - используя - подчеркнутые символы
  • 2?38?85?60 - изменив некоторые цифры наa "МАТЕМАТИЧЕСКИЙ САН-СЕРИФ BOLD DIGIT"
0 голосов
/ 29 декабря 2011

Да, он находится на компакт-диске, который поставляется с TUS, или загружается с unicode.org: База данных символов Unicode.

...