Следующий код PHP использует cURL, XPath и отображает все ссылки на определенной странице ($ target_url).
** То, что я пытаюсь сделать, это выяснить, как отображать только текст привязки (связанные слова в href) на данной странице, когда я предоставляю значение веб-сайта.
Например ... Я хочу выполнить поиск "randomwebsite.com", чтобы увидеть, есть ли ссылка с моим target_url (например, ebay.com), и отобразить только текст привязки "аукциона"
http://www.ebay.com'>auction веб-сайт
$target_url = "http://www.ebay.com";
$userAgent = 'Googlebot/2.1 (http://www.googlebot.com/bot.html)';
// make the cURL request to $target_url
$ch = curl_init();
curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);
curl_setopt($ch, CURLOPT_URL,$target_url);
curl_setopt($ch, CURLOPT_FAILONERROR, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_AUTOREFERER, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);
curl_setopt($ch, CURLOPT_TIMEOUT, 10);
$html= curl_exec($ch);
if (!$html) {
echo "<br />cURL error number:" .curl_errno($ch);
echo "<br />cURL error:" . curl_error($ch);
// parse the html into a DOMDocument
$dom = new DOMDocument();
// grab all the on the page
$xpath = new DOMXPath($dom);
$hrefs = $xpath->query('/html/body//a');
for ($i = 0; $i < $hrefs->length; $i++) {
$href = $hrefs->item($i);
$url = $href->getAttribute('href');
echo "<br />Link: $url";