Я пытаюсь получить содержимое веб-страницы. Но не смог сделать это правильно. Это не дает мне всю страницу.
function pageContent(String $url): \DOMDocument
{
$html = cache()->rememberForever($url, function () use ($url) {
return file_get_contents($url);
});
$parser = new \DOMDocument();
libxml_use_internal_errors(true);
$parser->loadHTML($html);
libxml_use_internal_errors(false);
return $parser;
}
$Parser2 = pageContent($url);
$xpath2 = new \DOMXPath($Parser2);
$links2 = $xpath2->query("//ul[@class='areapageDetailList']/li/div[@class='areapageDetailList_item_img']/a");
foreach ($links2 as $link2) {
$siteUrls2 [] = $link2->getAttribute("href");
}
Так что у меня там 9 ссылок. Все они выглядят одинаково, но перенаправляют другую страницу.
И мне нужно получить эту ссылку для перенаправления. Вот почему мне нужно найти. Это должно быть в этом метатеге или где-то еще. Поэтому я пытаюсь получить содержание этих URL. Например первый из массива. как это;
$content = pageContent($siteUrls2[0]);
var_dump($content);
Но я не могу получить полный HTML, просто возвращает мне это:
string (34) "https://lions -mansion.jp / MF081014 / "
object (DOMDocument) # 697 (35) {["doctype"] => string (22) "(object
значение опущено) "[" реализация "] => строка (22)" (значение объекта
опущено) "[" documentElement "] => string (22)" (значение объекта
опущено) "[" actualEncoding "] => string (6)" EUC-JP "[" encoding "] =>
string (6) "EUC-JP" ["xmlEncoding"] => string (6) "EUC-JP"
["standalone"] => bool (true) ["xmlStandalone"] => bool (true)
["version"] => NULL ["xmlVersion"] => NULL
["strictErrorChecking"] => bool (true) ["documentURI"] => NULL
["config"] => NULL ["formatOutput"] => bool (false)
["validateOnParse"] => bool (false) ["resolExternals"] =>
bool (false) ["preserveWhiteSpace"] => bool (true) ["recovery"] =>
bool (false) ["substituteEntities"] => bool (false) ["nodeName"] =>
string (9) "#document" ["nodeValue"] => NULL ["nodeType"] =>
int (13) ["parentNode"] => NULL ["childNodes"] => string (22)
"(значение объекта опущено)" ["firstChild"] => string (22) "(объект
значение опущено) "[" lastChild "] => string (22)" (значение объекта
опущено) "[" previousSibling "] => NULL [" nextSibling "] => NULL
["attribute"] => NULL ["ownerDocument"] => NULL
["namespaceURI"] => NULL ["prefix"] => string (0) ""
["localName"] => NULL ["baseURI"] => NULL ["textContent"] =>
строка (860) "ミ リ カ ・ ガ ー デ ン
Есть идеи, где я не прав?
Спасибо за помощь!