Я написал скрипт на php
для удаления titles
и links
с веб-страницы.Веб-страница отображает содержимое, проходящее через несколько страниц.Мой скрипт ниже может анализировать titles
и links
с его целевой страницы.
Как я могу исправить свой существующий скрипт, чтобы получать данные с нескольких страниц, например, до 10 страниц?
Это моя попытка до сих пор:
<?php
include "simple_html_dom.php";
$link = "https://stackoverflow.com/questions/tagged/web-scraping?page=2";
function get_content($url)
{
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_BINARYTRANSFER, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$htmlContent = curl_exec($ch);
curl_close($ch);
$dom = new simple_html_dom();
$dom->load($htmlContent);
foreach($dom->find('.question-summary') as $file){
$itemTitle = $file->find('.question-hyperlink', 0)->innertext;
$itemLink = $file->find('.question-hyperlink', 0)->href;
echo "{$itemTitle},{$itemLink}<br>";
}
}
get_content($link);
?>
Сайт увеличивает свои страницы, например ?page=2
, ?page=3
и т. Д.