Как понять этот текст c? - PullRequest
2 голосов
/ 27 марта 2020

Я хочу улучшить свои знания о Golang, прочитав спецификацию Golang, но английский sh не является моим родным языком; и я не совсем понимаю, что означает следующий текст:

Исходный код - это текст Unicode, закодированный в UTF-8. Текст не канонизирован, поэтому одна акцентированная кодовая точка отличается от того же символа, сконструированного из сочетания ударения и буквы; те рассматриваются как две кодовые точки. Для простоты этот документ будет использовать неквалифицированный термин «символ» для ссылки на кодовую точку Unicode в исходном тексте.

Что касается следующих частей, что означают следующие части?

  1. Текст не канонизирован
  2. Один акцентированный код
  3. Неквалифицированный термин, обозначающий кодовую точку Unicode в исходном тексте

Если вопросы этого типа не подходят для этого сайта, пожалуйста, посоветуйте более подходящее место, чтобы задать такие вопросы.

1 Ответ

4 голосов
/ 27 марта 2020

Важно, чтобы вы сначала поняли определенный аспект стандарта Unicode. Существуют два способа представления акцентированного символа, например ë. Одна - это единая кодовая точка U+00EB (латинская строчная буква E с диарезом), а вторая - две кодовые точки ̈e, представляющая собой простую кодовую точку U+0065 (латинская строчная буква E, обычная буква e) с другой кодовой точкой U+0308 (объединение диареза).

Теперь эти два символа одинаковы. Они просто построены по-другому. Это приводит к концепции под названием эквивалентность Unicode , которая нормализует (или канонизирует) эти два набора кодовых точек, чтобы быть эквивалентными.

Текст не канонизирован, поэтому один акцентированный код точка отличается от того же символа, сконструированного из сочетания ударения и буквы

. Это означает, что две акцентированные буквы ë и ̈e выше не эквивалентны в языке spe c. Первый - это «один акцентированный код» U+00EB, а второй - буква e в сочетании с объединяющим диакритическим знаком c.


Для простоты этот документ используйте неквалифицированный термин «символ» для обозначения кодовой точки Unicode в исходном тексте

Это просто говорит: «Мы определяем только для этого документа термин« символ »означает единая кодовая точка Unicode. " Это сделано для удобства чтения, а не для определения чего-либо в спецификации языка, и поэтому оно «неквалифицированное».

...