После преобразования моего сайта в использование utf-8 я столкнулся с перспективой проверки всех входящих данных utf, чтобы обеспечить их достоверность и согласованность.
Кажется, существуют различные regexp и PHP API для определения, является ли строка utf, но те, что я видел, кажутся неполными (регулярные выражения, которые проверяют utf, но все же допускают недопустимые 3-ий байты и т. Д.).
Я также обеспокоен обнаружением (и предотвращением) слишком длинного кодирования, то есть символов ASCII, которые можно кодировать как многобайтовые последовательности utf.
Любые предложения или ссылки приветствуются!