У меня есть страница, очищенная с помощью curl, и я хочу получить все ссылки с определенным идентификатором.Насколько я могу сказать, лучший способ сделать это с DOM и XPath.Нижеследующий код захватывает большое количество URL-адресов, но обрезает многие из них и захватывает текст, который не является URL-адресом.
$ curl_scraped_page - страница, очищенная скручиванием.
$dom = new DOMDocument();
@$dom->loadHTML($curl_scraped_page);
$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate("/html/body//a");
Я на правильном пути?Мне просто нужно связываться с синтаксисом "/ html / body // a" xpath или мне нужно добавить еще, чтобы захватить элемент id?