\ r \ n как часть символа UTF8? - PullRequest
2 голосов
/ 10 февраля 2012

Возможно ли, что какой-нибудь символ UTF8 включает в себя байты 0x0D 0x0A как часть? Если да, что это за символы?
(та задача, которую я пытаюсь решить, - это чтение текстового файла UTF8 с определенной точки, а не с самого начала)

Ответы [ 3 ]

5 голосов
/ 10 февраля 2012

Нет, каждый байт многобайтовой кодированной точки всегда будет иметь самый старший установленный бит.

Байты со значениями 0-127 в потоке UTF-8 однозначно отображаются в ASCII.

1 голос
/ 10 февраля 2012

Одна кодовая точка Unicode U + 0D0A будет представлена ​​как три байта 0xE0 0xB4 0x8A в UTF-8.Две кодовые точки Unicode U + 000D U + 000A будут представлены как два байта 0x0D 0x0A в UTF-8.

1 голос
/ 10 февраля 2012

Нет, каждый символ из диапазона 0-127 ASCII представлен "как есть" в тексте UTF-8. Каждый байт многобайтовых символов имеет свой 8-битный набор. Это одно из преимуществ UTF-8.

...