Мой PHP DOM Parser не сканирует HTTPS-сайты - PullRequest
0 голосов
/ 12 марта 2019

Я следовал учебному пособию по созданию поисковой системы, и мой код DOM parser предназначен для сканирования сайтов.Но проблема в том, что этот код сканирует только ссылки и изображения, которые присутствуют на сайтах http.Всякий раз, когда я пытаюсь сканировать сайты https , этот код не работает.

<?php
class DomDocumentParser {

    private $doc;

    public function __construct($url) {

        $options = array(
            'https'=>array('method'=>"GET", 'header'=>"User-Agent: searchengineBot/0.1\n")
            );
        $context = stream_context_create($options);

        $this->doc = new DomDocument();
        @$this->doc->loadHTML(file_get_contents($url, false, $context));
    }

    public function getlinks() {
        return $this->doc->getElementsByTagName("a");
    }

    public function getTitletags() {
        return $this->doc->getElementsByTagName("title");
    }

    public function getMetaTags() {
        return $this->doc->getElementsByTagName("meta");
    }       

    public function getImages() {
        return $this->doc->getElementsByTagName("img");
    }    
}
?>
...