Идентификация или обнаружение кодировки символов и преобразование данных в UTF-8 при необходимости.
Для HTML (т.е. text / html) существует три способа указать кодировку :
- HTTP-параметр "charset" в поле "Content-Type".
- A
META
объявление с http-эквивалентным значением «Content-Type» и значением, установленным для «charset».
- Атрибут
charset
установлен для элемента, который обозначает внешний ресурс.
Если ни один из них не присутствует, вы можете сделать анализ содержимого или переключиться на некоторую кодировку символов по умолчанию (например, ISO 8859-1).
Если идентифицированная / обнаруженная кодировка символов не является UTF-8, вы можете затем преобразовать данные в UTF-8 с помощью iconv
или mb_convert_encoding
.