отказ от информации, когда в URL вместо идентификаторов указаны идентификаторы продукта - PullRequest
1 голос
/ 28 января 2011

Я угадываю его php cURL, но каков наилучший способ сделать цикл для очистки DOM для получения информации с веб-страницы, которая использует идентификаторы в URL-запросе, например (? ProductId = 103) Там около 1200 страниц.Мне нужно найти innerHTML 9-го пролета на каждой странице.Эта информация будет просто сохранена в таблице mySQL (id-> value) для последующего удаления этого сайта.

Ответы [ 3 ]

2 голосов
/ 28 января 2011

Ну, скручивание может быть быстрее (не уверен), но если это одно, то я бы просто использовал file_get_contents

for($x=0;$x<1200;$x++){
  $f = file_get_contents(URL . '?productId='.$x);
  #do stuff to $f
 }
1 голос
/ 28 января 2011

Да.Используйте cURL для получения страницы, используйте DOM-анализатор, такой как SimpleXML, для получения необходимой информации.

0 голосов
/ 28 января 2011

cURL

, чтобы ускорить процесс, вы можете использовать multi_curl =>

https://stackoverflow.com/search?q=[php]+multi_curl

соскоб

перед соскобом ответили лучше => например https://stackoverflow.com/questions/3885760/scraping-and-web-crawling-framework-php.

Вы должны искать => https://stackoverflow.com/search?q=[php]+web+scraping

mySQL

Я не знаю, если вы делаете, но вы должны использовать PDO чтобы сделать его безопасным (SQL-инъекции).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...