Я угадываю его php cURL, но каков наилучший способ сделать цикл для очистки DOM для получения информации с веб-страницы, которая использует идентификаторы в URL-запросе, например (? ProductId = 103) Там около 1200 страниц.Мне нужно найти innerHTML 9-го пролета на каждой странице.Эта информация будет просто сохранена в таблице mySQL (id-> value) для последующего удаления этого сайта.
Ну, скручивание может быть быстрее (не уверен), но если это одно, то я бы просто использовал file_get_contents
for($x=0;$x<1200;$x++){ $f = file_get_contents(URL . '?productId='.$x); #do stuff to $f }
Да.Используйте cURL для получения страницы, используйте DOM-анализатор, такой как SimpleXML, для получения необходимой информации.
, чтобы ускорить процесс, вы можете использовать multi_curl =>
https://stackoverflow.com/search?q=[php]+multi_curl
перед соскобом ответили лучше => например https://stackoverflow.com/questions/3885760/scraping-and-web-crawling-framework-php.
Вы должны искать => https://stackoverflow.com/search?q=[php]+web+scraping
https://stackoverflow.com/search?q=[php]+web+scraping
Я не знаю, если вы делаете, но вы должны использовать PDO чтобы сделать его безопасным (SQL-инъекции).