A character sequence
- это серия байтов. При использовании UTF-8 допустимы не все комбинации байтов.
Последовательность байтов \xc2\xbc
образует символ Unicode U+00BC
, который является символом VULGAR FRACTION ONE QUARTER
(¼) при использовании кодировки UTF-8.
Последовательность байтов \xe2\x88\x9c
образует символ Unicode U+221C
, который является символом FOURTH ROOT
(∜) при использовании кодировки UTF-8.
Плохая последовательность символов для кодирования UTF-8 будет любой байтовой комбинацией, которая не вписывается в требуемую схему для UTF-8 потоков байтов, например, последовательность байтов \xbc\xbc
была бы недопустимой, поскольку два байтовых символа должны иметь 110xxxxx
в первом байте, но \xbc
- это 10111100
, записанный в битах.