Riccardo 10 августа 2010 0

DOMDocument для извлечения части веб-страницы (любая кодировка)?

Ответы [ 2 ]

Artefacto / 10 августа 2010

$d = new DOMDOcument();
libxml_use_internal_errors(true);
$d->loadHTMLFile("http://stackoverflow.com");
$b = $d->getElementsByTagName("body")->item(0);
if ($b !== null) {
    echo simplexml_import_dom($b)->asXML();
}

Это также будет включать тег <body>, и содержимое будет изменено, чтобы оно было правильно сформированным XML.

Чтобы не было тегов тела (хотя теперь у нас нетединый корень, поэтому не правильно сформированный XML):

$d = new DOMDOcument();
libxml_use_internal_errors(true);
$d->loadHTMLFile("http://stackoverflow.com");
$b = $d->getElementsByTagName("body")->item(0);
if ($b !== null) {
    for ($n = $b->firstChild; $n !== null; $n = $n->nextSibling) {
        echo simplexml_import_dom($n)->asXML();
    }
}

...