Список символов спецификации - PullRequest
0 голосов
/ 19 декабря 2018

Есть ли список возможных символов спецификации, которые используются?До сих пор я сталкивался:

\x00\x00\xfe\xff    UTF-32, big-endian
\xff\xfe\x00\x00    UTF-32, little-endian
\xfe\xff            UTF-16, big-endian
\xff\xfe            UTF-16, little-endian
\xef\xbb\xbf        UTF-8

Есть ли какие-то дополнительные, которые мне не хватает?

1 Ответ

0 голосов
/ 19 декабря 2018

Краткий ответ: нет, вы их охватили.

Согласно спецификации Unicode, UTF-8, UTF-16 и UTF-32 - это 3 основных типа кодировок.Они фактически перечисляют UTF-16, UTF-16LE и UTF-16BE как отдельные кодировки, а также UTF-32, UTF-32LE и UTF-32BE.

Важно знать, что если символьный потокявно закодированный в одной из форм LE или BE, вы должны интерпретировать ведущий 0xFFFE как U + FEFF Zero Width без перерыва.Т.е.

UTF-16BE  initial FE FF is treated as U+FEFF
UTF-16LE  initial FF FE is treated as U+FEFF
UTF-32BE  initial 00 00 FE FF is treated as U+FEFF
UTF-32LE  initial FF FE 00 00 is treated as U+FEFF

Подробнее см. http://www.unicode.org/versions/Unicode11.0.0/ch03.pdf#G2212.

...