генератор карт сайта, построенный с нуля - PullRequest
0 голосов
/ 10 мая 2011

Я хотел бы знать, как создать сканер сайтов в php, который обнаруживает каждую страницу веб-сайта и создает запись в XML-файле.Я видел множество сайтов, делающих это, поэтому мне любопытно, как это сделать с нуля, или есть какой-нибудь сценарий или учебник, чтобы научить этому.

Ответы [ 2 ]

2 голосов
/ 10 мая 2011

не используйте регулярные выраженияправильный способ анализа html - использование объекта DOMDocument.

  1. Загрузка первой страницы в объект DOMDocument.
  2. Использование операторов XPath для сбора всех якорных тегов hrefs foudnна этой странице.
  3. Используйте эти значения, чтобы найти больше страниц для загрузки, чтобы снова начать с первого шага.

http://www.php.net/manual/en/class.domdocument.php

0 голосов
/ 10 мая 2011

Вот алгоритм
Шаг 1-> Получите адрес сайта, убедитесь, что адрес указан в правильном формате и заканчивается страницей (www.xyz.com/page.html), которая не похожа на (www.xyz.com/).
Шаг 2 -> Получить содержимое файла, используя регулярное выражение, попробуйте получить список страниц.
Шаг 3 -> Соберите их в БД для дальнейшего использования и выполните шаг 2 для этих файлов.

...