Как проверить продолжение существующего персонажа нового персонажа? - PullRequest
0 голосов
/ 08 ноября 2019

Если вы читаете файл с кодировкой UTF-8 и читаете байт, как вы можете определить, является ли этот байт продолжением существующего символа, а не началом нового символа?

1 Ответ

2 голосов
/ 09 ноября 2019

Байт является байтом продолжения UTF-8, если двоичное значение байта равно 10xxxxxx ( x может быть 0 или 1). Начальные байты UTF-8 следуют следующим шаблонам:

0xxxxxxx - start (and end) of 1-byte sequence
110xxxxx - start of 2-byte sequence (followed by one continuation byte)
1110xxxx - start of 3-byte sequence (followed by two continuation bytes)
11110xxx - start of 4-byte sequence (followed by three continuation bytes)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...