Я анализирую html, и я не хочу включать теги заголовка img элемента заголовка - PullRequest
0 голосов
/ 13 января 2020

Ниже приведен код, который записан в функции PHP. Прямо сейчас я получаю все img sr c всего HTML. Я просто хочу иметь тег img всего html, за исключением тегов, присутствующих в заголовке.

$ch = curl_init();
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
$data = curl_exec($ch);
$doc = new DOMDocument();
@$doc->loadHTML($data);
$finder = new DomXPath($doc);
$nodes_images = $finder->query("//img/@src");

1 Ответ

0 голосов
/ 13 января 2020

Если вы ссылаетесь на элемент HTML5 header, то при использовании //img[not(ancestor::header)]/@src следует выбрать все src атрибуты всех элементов img, которые не являются потомками элемента header. Однако я не знаю, насколько хорошо синтаксический анализ HTML на основе libxml2, используемый загрузкой PHP HTML, поддерживает синтаксический анализ HTML5.

...