Question

Я проверяю, как часть моего кода обрабатывает неверные данные, и мне нужно несколько серий байтов, которые являются недействительными UTF-8.

Можете ли вы опубликовать, а в идеале, объяснение, почему они плохие / где вы их получили?

Nemanja Trifunovic · Answer 1 · 19 августа 2009

Взгляните на Возможности декодера Маркуса Куна UTF-8 и файл стресс-теста

Вы найдете примеры многих нарушений UTF-8, включая одиночные байты начала, пропущенные байты продолжения, слишком длинные последовательности и т. Д.

philfreo · Answer 2 · 08 октября 2010

В PHP:

$examples = array(
    'Valid ASCII' => "a",
    'Valid 2 Octet Sequence' => "\xc3\xb1",
    'Invalid 2 Octet Sequence' => "\xc3\x28",
    'Invalid Sequence Identifier' => "\xa0\xa1",
    'Valid 3 Octet Sequence' => "\xe2\x82\xa1",
    'Invalid 3 Octet Sequence (in 2nd Octet)' => "\xe2\x28\xa1",
    'Invalid 3 Octet Sequence (in 3rd Octet)' => "\xe2\x82\x28",
    'Valid 4 Octet Sequence' => "\xf0\x90\x8c\xbc",
    'Invalid 4 Octet Sequence (in 2nd Octet)' => "\xf0\x28\x8c\xbc",
    'Invalid 4 Octet Sequence (in 3rd Octet)' => "\xf0\x90\x28\xbc",
    'Invalid 4 Octet Sequence (in 4th Octet)' => "\xf0\x28\x8c\x28",
    'Valid 5 Octet Sequence (but not Unicode!)' => "\xf8\xa1\xa1\xa1\xa1",
    'Valid 6 Octet Sequence (but not Unicode!)' => "\xfc\xa1\xa1\xa1\xa1\xa1",
);

С http://www.php.net/manual/en/reference.pcre.pattern.modifiers.php#54805

user1015281 · Answer 3 · 02 апреля 2015

, ̆ было особенно злым. Я вижу это в сочетании с Ubuntu.

запятая бревис

masakielastic · Answer 4 · 19 июня 2013

Идея шаблонов неправильно сформированных последовательностей байтов может быть получена из таблицы правильно сформированных последовательностей байтов. См. « Таблица 3-7. Хорошо сформированные последовательности байтов UTF-8 » в стандарте Unicode 6.2.

    Code Points    First Byte Second Byte Third Byte Fourth Byte
  U+0000 -   U+007F   00 - 7F
  U+0080 -   U+07FF   C2 - DF    80 - BF
  U+0800 -   U+0FFF   E0         A0 - BF     80 - BF
  U+1000 -   U+CFFF   E1 - EC    80 - BF     80 - BF
  U+D000 -   U+D7FF   ED         80 - 9F     80 - BF
  U+E000 -   U+FFFF   EE - EF    80 - BF     80 - BF
 U+10000 -  U+3FFFF   F0         90 - BF     80 - BF    80 - BF
 U+40000 -  U+FFFFF   F1 - F3    80 - BF     80 - BF    80 - BF
U+100000 - U+10FFFF   F4         80 - 8F     80 - BF    80 - BF

Вот примеры, сгенерированные из U + 24B62. Я использовал их для сообщения об ошибке: Ошибка # 65045 mb_convert_encoding нарушает правильную форму символа

// U+24B62: "\xF0\xA4\xAD\xA2"
"\xF0\xA4\xAD"    ."\xF0\xA4\xAD\xA2"."\xF0\xA4\xAD\xA2"
"\xF0\xA4\xAD\xA2"."\xF0\xA4\xAD\xA2"."\xF0\xA4\xAD"

Чрезмерное упрощение диапазона конечных байтов ([0x80, 0xBF]) можно увидеть в различных библиотеках.

// U+0800 - U+0FFF
\xE0\x80\x80

// U+D000 - U+D7FF
\xED\xBF\xBF

// U+10000 -  U+3FFFF
\xF0\x80\x80\x80

// U+100000 - U+10FFFF
\xF4\xBF\xBF\xBF

shoosh · Answer 5 · 19 августа 2009

Fuzz Testing - генерирует случайную последовательность октетов. Скорее всего, вы получите некоторые незаконные последовательности раньше, чем позже.

Пример неверной строки utf8?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пример неверной строки utf8?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов