Возможно ли, что какой-нибудь символ UTF8 включает в себя байты 0x0D 0x0A как часть? Если да, что это за символы? (та задача, которую я пытаюсь решить, - это чтение текстового файла UTF8 с определенной точки, а не с самого начала)
Нет, каждый байт многобайтовой кодированной точки всегда будет иметь самый старший установленный бит.
Байты со значениями 0-127 в потоке UTF-8 однозначно отображаются в ASCII.
Одна кодовая точка Unicode U + 0D0A будет представлена как три байта 0xE0 0xB4 0x8A в UTF-8.Две кодовые точки Unicode U + 000D U + 000A будут представлены как два байта 0x0D 0x0A в UTF-8.
0xE0 0xB4 0x8A
0x0D 0x0A
Нет, каждый символ из диапазона 0-127 ASCII представлен "как есть" в тексте UTF-8. Каждый байт многобайтовых символов имеет свой 8-битный набор. Это одно из преимуществ UTF-8.