PHP: конвертировать вывод curl_exec в UTF8 - PullRequest
9 голосов
/ 24 марта 2010

Я хотел бы работать только с UTF8. Проблема в том, что я не знаю кодировку каждой веб-страницы. Как я могу обнаружить его и преобразовать в UTF8?

<?php
$url = "http://vkontakte.ru";
$ch = curl_init($url);
$options = array(
    CURLOPT_RETURNTRANSFER => true,
);
curl_setopt_array($ch, $options);
$data = curl_exec($ch);

// $data = magic($data);

print $data;

См. По адресу: http://paulisageek.com/tmp/curl-utf8

Что такое magic()?

Ответы [ 5 ]

25 голосов
/ 25 марта 2010

Следуя советам Гамбо и Пекки, я написал curl_exec_utf8

/** The same as curl_exec except tries its best to convert the output to utf8 **/
function curl_exec_utf8($ch) {
    $data = curl_exec($ch);
    if (!is_string($data)) return $data;

    unset($charset);
    $content_type = curl_getinfo($ch, CURLINFO_CONTENT_TYPE);

    /* 1: HTTP Content-Type: header */
    preg_match( '@([\w/+]+)(;\s*charset=(\S+))?@i', $content_type, $matches );
    if ( isset( $matches[3] ) )
        $charset = $matches[3];

    /* 2: <meta> element in the page */
    if (!isset($charset)) {
        preg_match( '@<meta\s+http-equiv="Content-Type"\s+content="([\w/]+)(;\s*charset=([^\s"]+))?@i', $data, $matches );
        if ( isset( $matches[3] ) ) {
            $charset = $matches[3];
            /* In case we want do do further processing downstream: */
            $data = preg_replace('@(<meta\s+http-equiv="Content-Type"\s+content="[\w/]+\s*;\s*charset=)([^\s"]+)@i', '$1utf-8', $data, 1);
        }
    }

    /* 3: <xml> element in the page */
    if (!isset($charset)) {
        preg_match( '@<\?xml.+encoding="([^\s"]+)@si', $data, $matches );
        if ( isset( $matches[1] ) ) {
            $charset = $matches[1];
            /* In case we want do do further processing downstream: */
            $data = preg_replace('@(<\?xml.+encoding=")([^\s"]+)@si', '$1utf-8', $data, 1);
        }
    }

    /* 4: PHP's heuristic detection */
    if (!isset($charset)) {
        $encoding = mb_detect_encoding($data);
        if ($encoding)
            $charset = $encoding;
    }

    /* 5: Default for HTML */
    if (!isset($charset)) {
        if (strstr($content_type, "text/html") === 0)
            $charset = "ISO 8859-1";
    }

    /* Convert it if it is anything but UTF-8 */
    /* You can change "UTF-8"  to "UTF-8//IGNORE" to 
       ignore conversion errors and still output something reasonable */
    if (isset($charset) && strtoupper($charset) != "UTF-8")
        $data = iconv($charset, 'UTF-8', $data);

    return $data;
}

Регулярные выражения в основном из http://nadeausoftware.com/articles/2007/06/php_tip_how_get_web_page_content_type

4 голосов
/ 24 марта 2010

Конвертировать легко. Обнаружение является сложной частью. Вы можете попробовать mb_detect_encoding , но это очень шаткий метод, он буквально «угадывает» тип контента, и, как подчеркивает @troelskn в комментариях, в лучшем случае можно угадать «грубые» различия (это многобайтовая кодировка) ?) но не удается обнаружить нюансы схожих наборов символов.

Правильный путь будет ИМО:

  • Интерпретация любых content-type метатегов на странице
  • Интерпретация любых content-type заголовков, отправленных сервером
  • Если это ничего не дает, попробуйте "прослушать" кодировку, используя mb_detect_encoding ()
  • Если это ничего не дает, вернитесь к определенному значению по умолчанию (возможно, ISO-8859-1, возможно, UTF-8).

В отличие от изложенного в рекомендациях в ответе @ Gumbo, я лично считаю, что метатеги должны иметь приоритет над заголовками сервера, потому что я вполне уверен, что если присутствует метатег, это более надежный индикатор фактической кодировки страницы, чем настройки сервера, некоторые операторы сайта даже не знают, как изменить. Однако правильный способ, по-видимому, заключается в обработке заголовков типа содержимого с более высоким приоритетом.

Для первого, я думаю, вы можете использовать get_meta_tags () . Последнее, которое вы уже должны получить из curl, вам просто нужно разобрать его. Здесь - полный пример того, как систематически обрабатывать заголовки ответов, обслуживаемых cURL.

Преобразование будет тогда использовать iconv :

$new_content = iconv("incoming-charset", "utf-8", $content);
1 голос
/ 30 декабря 2012

Я был очень рад найти этот ответ, но заметил, что в обнаружении тега <meta> есть недостаток. Похоже, он просто не соответствует ни одному из тегов типа контента и еще не оснащен новыми тегами в стиле HTML5: <meta charset="UTF-8">. Итак, я написал это, надеюсь, это поможет вам, ребята, и еще раз спасибо за это отличное решение!

/* 2: <meta> element in the page */
if (!isset($charset)) {
    preg_match('/<[\s]*meta[^>]*charset="?([^\s"]+)\s?"/i', $data, $matches);

    if (isset($matches[1])) {
        $charset = $matches[1];
    }
}

(П.С. Я не мог понять, как опубликовать это как комментарий, так как это, очевидно, не полный ответ.)

0 голосов
/ 24 марта 2010

Существует определенный порядок как указать кодировку символов в HTML :

[…] соответствующие пользовательские агенты должны соблюдать следующие приоритеты при определении кодировки символов документа (от наивысшего приоритета к наименьшему):

  1. HTTP-параметр "charset" в поле "Content-Type".
  2. A META объявление с http-эквивалентным значением «Content-Type» и значением, установленным для «charset».
  3. Атрибут charset установлен для элемента, который обозначает внешний ресурс.

Если декларация кодировки символов отсутствует, HTTP определяет ISO 8859-1 в качестве кодировки символов по умолчанию . Вы также можете использовать это как кодировку символов по умолчанию для HTML или просто отказаться от обработки ответа.

Для XHTML дополнительно имеется XML-объявление в качестве источника для кодировки :

В документе XML кодировка символов документа указывается в объявлении XML (например, <?xml version="1.0" encoding="EUC-JP"?>). Чтобы переносить документы с определенным кодированием символов, наилучшим подходом является обеспечение того, чтобы веб-сервер предоставлял правильные заголовки. Если это невозможно, документ, который хочет явно установить свою кодировку символов, должен включать в себя как декларацию XML, так и декларацию кодировки, а также оператор meta http-эквивалент (например, <meta http-equiv="Content-type" content="text/html; charset=EUC-JP" />). В пользовательских агентах, соответствующих XHTML, значение объявления кодировки объявления XML имеет приоритет.

Если декларация кодировки символов отсутствует, XML определяет UTF-8 и UTF-16 в качестве кодировки символов по умолчанию :

Если кодировка не определяется протоколом более высокого уровня, это также фатальная ошибка, если объект XML не содержит объявления кодировки и его содержимое не является допустимым UTF-8 или UTF-16.

Итак, подведем итог, заказ:

  1. HTTP-параметр "charset" в поле "Content-Type".
  2. XML-объявление с атрибутом encoding.
  3. Объявление META с "http-эквивалент", установленным в "Content-Type", и значением, установленным для "charset".

Если декларация кодировки символов отсутствует, вы можете принять ISO 8859-1 в качестве кодировки по умолчанию для HTML и принять UTF-8 или UTF-16 в качестве кодировки по умолчанию для XHTML.

0 голосов
/ 24 марта 2010

Вы можете попробовать что-то вроде:

http://www.php.net/manual/en/function.mb-detect-encoding.php

http://www.php.net/manual/en/function.mb-convert-encoding.php

Хотя это не дурак.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...