В соответствии со стандартами W3C , вы должны следовать следующим приоритетам, чтобы получить кодировку документа HTML / XML:
Content-Type
header (изHTTP-ответ) - объявление XML или XHTML, например:
<?xml version="1.0" encoding="utf-8" ?>
meta
тег с http-equiv="Content-Type"
(из заголовка HTML)
В моемопыт, когда все это терпит неудачу, вы можете предположить, что кодировка, скорее всего, ISO-8859-1 или CP1252.Вы можете декодировать контент с помощью библиотеки iconv, например: iconv("UTF-8", "ISO-8859-1", $content)
.
Если вы используете библиотеку cURL для получения URL-адресов, вы можете получить заголовок типа контента с помощью: curl_getinfo($ch, CURLINFO_CONTENT_TYPE)
.Другие теги можно извлечь с помощью синтаксического анализатора XML / HTML.