Я пытаюсь вытащить заголовки со страницы.Пока что все работает, но я получил удвоенные результаты.Например, я получаю h3
заголовков.На странице один раз, но в источнике 2 раза.
Вот пример
<span data-img-type='cvr' data-img-att-alt='Cover of Greek Mythology' data-img-size-xs='image.jpg'></span>
<h3> Cover of Greek Mythology </h3>
Это вернет
Cover of Greek Mythology
Cover of Greek Mythology
Я нацеливаюсь толькоэлементы h3, но они все еще выглядят дублированными.Как я могу удалить повторяющиеся элементы?
Вот что у меня есть до сих пор
$html = file_get_contents('https://example.com/');
$scriptDocument = new DOMDocument();
libxml_use_internal_errors(TRUE);
if(!empty($html)){
$scriptDocument->loadHTML($html);
libxml_clear_errors();
$scriptDOMXPath = new DOMXPath($scriptDocument);
//get all the h3's with an class
$scriptRow = $scriptDOMXPath->query('//h3[@class]');
//check
if($scriptRow->length > 0){
foreach($scriptRow as $row){
echo $row->nodeValue . "<br/>";
}
}
}