Создание сканера Я бы составил список URL-адресов, чтобы получить и, наконец, получить их
A.Составьте список
- Определите список URL для сканирования
- Добавьте этот URL в список URL для сканирования (список заданий)
- Определитемаксимальная глубина
- Разобрать первую страницу, получить все, найти ссылку, получить ссылку.
- Для каждой ссылки: если она из того же домена или родственника, добавьте ее в список вакансий.
- Удалить текущий URL из списка заданий,
- Перезапустить из списка заданий следующего URL, если он не пустой.
Для этого вы можете использовать этот класс, который делаетпарсинг html действительно прост: http://simplehtmldom.sourceforge.net/
B.Получить содержимое
Цикл созданного массива и получение содержимого.file_get_contents сделает это за вас: http://www.php.net/manual/fr/function.file-get-contents.php
Это просто в принципе верно для начала, на шаге A вы должны сохранить список уже проанализированных URL, чтобы проверить их только один.Строка запроса также может быть чем-то, за чем вы будете следить, чтобы избежать сканирования нескольких страниц с другой строкой запроса.