Есть ли диапазон Юникода, который является копией первых 128 символов? - PullRequest
0 голосов
/ 01 марта 2012

Я хотел бы иметь возможность помещать и другие символы в текст без его интерпретации компьютером. Поэтому было интересно, есть ли диапазон, который определяется как отображение на те же символы и т. Д., Что и диапазон 0-0x7f (диапазон ascii).

Обратите внимание, я утверждаю, что диапазон 0-0x7f такой же, как у ascii, поэтому вопрос не в том, какой диапазон соответствует ascii.

Я спрашиваю, есть ли другой диапазон, который также отображается на те же символы. И.Э. при визуализации будет выглядеть одинаково. Но при интерпретации может быть видно другой код.

чтобы я мог написать

print " hello" world ""

символы, выделенные жирным шрифтом, избегают 0-0x7f (диапазон ascii)

Дополнительно: Я имел в виду гомографический и поведенческий, ну, все то же самое, за исключением другого кода. Я прыгал по всему ascii / 128-битному набору, прямо сопоставлен (смещение добавлено ко всем).

Причина: избегать интерпретации любым языком, который использует некоторые символы ascii как часть своего языка, но допускает любой символ Юникода в литеральных строках, например, (в кодировке uft-8) C, html, css,…

Я пытался исправить идею «без зарезервированных слов» / «словесных цветов» (строковые литералы одного цвета, ключевые слова другого, переменные другого, числа другие и т. Д.), Чтобы строковый литерал или имя переменной ( хотя и не в этом случае) может содержать любой символ.

Ответы [ 3 ]

3 голосов
/ 01 марта 2012

Я интерпретирую вопрос как «есть ли набор кодовых точек, которые являются гомографическими с низким 7-битным набором ASCII». Ответ - нет.

Есть некоторые кодовые точки, которые обычно отображаются гомографически (например, кириллический символ U + 0410 выглядит идентично ASCII 65 во многих шрифтах и ​​довольно похож в большинстве шрифтов, которые поддерживают эту кодовую точку), но это разные кодовые точки с разными семантика. Точно так же есть некоторые кодовые точки, которые в основном отображаются одинаково, но имеют определенный набор семантики, например, неразрывный пробел U + 00A0, который выполняется идентично ASCII 32, но определен как имеющий определенное свойство разрыва строки; или ПРАВУЮ ОДНОКРАТНУЮ Кавычку U + 2019, которая является недвусмысленной кавычкой, в отличие от ее близнеца ASCII 39, «апостроф».

Но в итоге в базовом блоке ASCII есть много символов, которые не совпадают с гомографией в другом блоке кода. Возможно, вы сможете найти гомографы или почти гомографы для вашего примера предложения; Я бы исследовал фонетические символы МФА, а также блоки греческого и кириллического алфавита.

2 голосов
/ 01 марта 2012

Ответ на заданный вопрос - «Нет», как описал @tripleee, но следующее примечание может быть уместным, если цель какая-то хитрая или забавная:

Печатные символы ASCII, исключая пробелбыли дублированы от U + FF01 до U + FF5E, но это символы полной ширины, предназначенные для использования в текстах CJK.Их форма (и должна быть) различна: hello world.(Ваш браузер может быть не в состоянии отобразить их.) Таким образом, они не совсем гомографичны символам ASCII, но могут использоваться для некоторых специальных целей.(Я понятия не имею о том, что цель может быть здесь.)

0 голосов
/ 01 марта 2012

Зависит от используемого вами стандарта Unicode.

В UTF-8 первые 128 символов имеют точные аналоги ASCII в виде кодовых номеров. В UTF-16 первые 128 символов ASCII находятся в диапазоне от 0x0000 до 0x007F (2 байта).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...