Получение перенаправления URL с содержимого страницы - PullRequest
0 голосов
/ 06 ноября 2018

Я пытаюсь получить содержимое веб-страницы. Но не смог сделать это правильно. Это не дает мне всю страницу.

function pageContent(String $url): \DOMDocument
    {
        $html = cache()->rememberForever($url, function () use ($url) {
            return file_get_contents($url);
        });
        $parser = new \DOMDocument();
        libxml_use_internal_errors(true);
        $parser->loadHTML($html);
        libxml_use_internal_errors(false);
        return $parser;
    }

    $Parser2 = pageContent($url);
    $xpath2 = new \DOMXPath($Parser2);
    $links2 = $xpath2->query("//ul[@class='areapageDetailList']/li/div[@class='areapageDetailList_item_img']/a");

foreach ($links2 as $link2) {
        $siteUrls2 [] = $link2->getAttribute("href");

    }

Так что у меня там 9 ссылок. Все они выглядят одинаково, но перенаправляют другую страницу. И мне нужно получить эту ссылку для перенаправления. Вот почему мне нужно найти. Это должно быть в этом метатеге или где-то еще. Поэтому я пытаюсь получить содержание этих URL. Например первый из массива. как это;

$content = pageContent($siteUrls2[0]);

    var_dump($content);

Но я не могу получить полный HTML, просто возвращает мне это:

string (34) "https://lions -mansion.jp / MF081014 / " object (DOMDocument) # 697 (35) {["doctype"] => string (22) "(object значение опущено) "[" реализация "] => строка (22)" (значение объекта опущено) "[" documentElement "] => string (22)" (значение объекта опущено) "[" actualEncoding "] => string (6)" EUC-JP "[" encoding "] => string (6) "EUC-JP" ["xmlEncoding"] => string (6) "EUC-JP"
["standalone"] => bool (true) ["xmlStandalone"] => bool (true)
["version"] => NULL ["xmlVersion"] => NULL
["strictErrorChecking"] => bool (true) ["documentURI"] => NULL
["config"] => NULL ["formatOutput"] => bool (false)
["validateOnParse"] => bool (false) ["resolExternals"] =>
bool (false) ["preserveWhiteSpace"] => bool (true) ["recovery"] =>
bool (false) ["substituteEntities"] => bool (false) ["nodeName"] => string (9) "#document" ["nodeValue"] => NULL ["nodeType"] =>
int (13) ["parentNode"] => NULL ["childNodes"] => string (22) "(значение объекта опущено)" ["firstChild"] => string (22) "(объект значение опущено) "[" lastChild "] => string (22)" (значение объекта опущено) "[" previousSibling "] => NULL [" nextSibling "] => NULL
["attribute"] => NULL ["ownerDocument"] => NULL
["namespaceURI"] => NULL ["prefix"] => string (0) ""
["localName"] => NULL ["baseURI"] => NULL ["textContent"] =>
строка (860) "ミ リ カ ・ ガ ー デ ン

Есть идеи, где я не прав? Спасибо за помощь!

...