Если страницы связаны гиперссылками со страницы в корне, вы можете легко spider сайта, перейдя по внутренним ссылкам. Для этого потребуется загрузить корневую страницу, проанализировать ее гиперссылки, загрузить эти страницы и повторять, пока новые ссылки не будут обнаружены. Вам нужно будет реализовать обнаружение циклов, чтобы избежать сканирования уже просканированных страниц. Пауки не тривиальны, чтобы действовать вежливо; многие сайты предоставляют метаданные через файлы robots.txt или иным образом, чтобы указать, какие части своего сайта они не хотят индексировать, и они могут работать медленно, чтобы избежать чрезмерного использования ресурсов сервера. Вы должны уважать эти нормы.
Однако учтите, что не существует общего способа перечисления всех страниц, если они явно не связаны с сайтом. Для этого потребуется:
- что сайт разрешает распечатку каталогов, чтобы вы могли идентифицировать все файлы, хранящиеся по этим путям. Большинство сайтов не предоставляют такую услугу; или
- сотрудничество с оператором сайта или веб-сервером для поиска всех страниц, перечисленных под этими путями; или
- перебор всех возможных URL-адресов по этим путям, что является практически неограниченным набором. Осуществление такого поиска не будет вежливым по отношению к оператору сайта, является чрезмерно сложным с точки зрения времени и усилий и не может быть исчерпывающим.