PHP iconv_strlen вопрос - PullRequest
       7

PHP iconv_strlen вопрос

3 голосов
/ 13 июня 2011

Что это означает, когда icon_strlen терпит неудачу на плохих последовательностях символов, в частности character sequences - это то, что я хочу знать. Спасибо

1 Ответ

4 голосов
/ 13 июня 2011

A character sequence - это серия байтов. При использовании UTF-8 допустимы не все комбинации байтов.

Последовательность байтов \xc2\xbc образует символ Unicode U+00BC, который является символом VULGAR FRACTION ONE QUARTER (¼) при использовании кодировки UTF-8.

Последовательность байтов \xe2\x88\x9c образует символ Unicode U+221C, который является символом FOURTH ROOT (∜) при использовании кодировки UTF-8.

Плохая последовательность символов для кодирования UTF-8 будет любой байтовой комбинацией, которая не вписывается в требуемую схему для UTF-8 потоков байтов, например, последовательность байтов \xbc\xbc была бы недопустимой, поскольку два байтовых символа должны иметь 110xxxxx в первом байте, но \xbc - это 10111100, записанный в битах.

...