Как исключить дублированные элементы DOMDocument - PullRequest
0 голосов
/ 19 сентября 2018

Я пытаюсь вытащить заголовки со страницы.Пока что все работает, но я получил удвоенные результаты.Например, я получаю h3 заголовков.На странице один раз, но в источнике 2 раза.

Вот пример

<span data-img-type='cvr' data-img-att-alt='Cover of Greek Mythology' data-img-size-xs='image.jpg'></span>
<h3> Cover of Greek Mythology </h3>

Это вернет

Cover of Greek Mythology
Cover of Greek Mythology

Я нацеливаюсь толькоэлементы h3, но они все еще выглядят дублированными.Как я могу удалить повторяющиеся элементы?

Вот что у меня есть до сих пор

$html = file_get_contents('https://example.com/'); 

$scriptDocument = new DOMDocument();

libxml_use_internal_errors(TRUE); 

if(!empty($html)){ 

    $scriptDocument->loadHTML($html);
    libxml_clear_errors(); 
    $scriptDOMXPath = new DOMXPath($scriptDocument);
    //get all the h3's with an class
    $scriptRow = $scriptDOMXPath->query('//h3[@class]');
    //check
    if($scriptRow->length > 0){
        foreach($scriptRow as $row){
            echo $row->nodeValue . "<br/>";
        }
    }
}
...