Как найти все сайты по определенному URL. - PullRequest
0 голосов
/ 02 сентября 2018

Я действительно хочу знать, как найти все сайты по определенному URL. Например, у меня есть URL-адрес https://a.b/c,, и я хочу найти все веб-сайты под ним, такие как https://a.b/c/d и https://a.b/c/d/e. Есть ли способы сделать это? Большое спасибо!

Ответы [ 3 ]

0 голосов
/ 02 сентября 2018

Наряду с предложением @Cosmic Ossifrage вы можете искать карту сайта. Часто это ссылки в файле robots.txt, находящемся в корне (https://www.example.com/robots.txt).), который может содержать ссылку на карту сайта xml со списком ссылок на сайте, которые могут быть или не быть исчерпывающими.

0 голосов
/ 02 сентября 2018

Используйте Xenus Link Sleuth, WebCheck и DRKSpider.

Вот ссылки ниже

  1. Ссылка Sleuth: http://home.snafu.de/tilman/xenulink.html
  2. WebCheck: https://arthurdejong.org/webcheck/
  3. DRKSpider: http://www.drk.com.ar/spider.php
0 голосов
/ 02 сентября 2018

Если страницы связаны гиперссылками со страницы в корне, вы можете легко spider сайта, перейдя по внутренним ссылкам. Для этого потребуется загрузить корневую страницу, проанализировать ее гиперссылки, загрузить эти страницы и повторять, пока новые ссылки не будут обнаружены. Вам нужно будет реализовать обнаружение циклов, чтобы избежать сканирования уже просканированных страниц. Пауки не тривиальны, чтобы действовать вежливо; многие сайты предоставляют метаданные через файлы robots.txt или иным образом, чтобы указать, какие части своего сайта они не хотят индексировать, и они могут работать медленно, чтобы избежать чрезмерного использования ресурсов сервера. Вы должны уважать эти нормы.

Однако учтите, что не существует общего способа перечисления всех страниц, если они явно не связаны с сайтом. Для этого потребуется:

  • что сайт разрешает распечатку каталогов, чтобы вы могли идентифицировать все файлы, хранящиеся по этим путям. Большинство сайтов не предоставляют такую ​​услугу; или
  • сотрудничество с оператором сайта или веб-сервером для поиска всех страниц, перечисленных под этими путями; или
  • перебор всех возможных URL-адресов по этим путям, что является практически неограниченным набором. Осуществление такого поиска не будет вежливым по отношению к оператору сайта, является чрезмерно сложным с точки зрения времени и усилий и не может быть исчерпывающим.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...