простой HTML-дом возвращает странные результаты с некоторыми URL - PullRequest
0 голосов
/ 18 января 2012

Я использую простой HTML DOM и получаю странные результаты при использовании его на некоторых сайтах.

Вот вывод HTML, который он производит из этой ссылки

���������������� 

Я проверил источники, и это беспорядок.

Он также зависает всякий раз, когда я пытаюсь использовать его на этом сайте Опять же, HTML это беспорядок.

Есть идеи?

РЕДАКТИРОВАТЬ: добавлен блок кода:

Переменная $str ниже определена ранее в моем коде в запросе CURL.

Я использую запрос CURL для

$html = str_get_html($str);
$images = array();
if($html !='') {
    foreach($html->find('img') as $element) {
        if(strtolower(substr($element->src, -4)) != '.gif') {
            $images[] = url_to_absolute($baseURL, $element->src);
            }
    }
}

Ответы [ 2 ]

0 голосов
/ 22 июня 2012

У меня есть эта проблема, но она не была в кодировке, проблема была в сжатии с помощью gzip, с которой не справился простой html dom. Вот мое решение Простая проблема кодировки символов html dom

0 голосов
/ 18 января 2012

� всегда выглядит как проблема с кодировкой.

Может быть, utf8_decode / utf8_encode может помочь.

...