Question

Я действительно хочу знать, как найти все сайты по определенному URL. Например, у меня есть URL-адрес https://a.b/c,, и я хочу найти все веб-сайты под ним, такие как https://a.b/c/d и https://a.b/c/d/e. Есть ли способы сделать это? Большое спасибо!

tenor528 · Answer 1 · 02 сентября 2018

Наряду с предложением @Cosmic Ossifrage вы можете искать карту сайта. Часто это ссылки в файле robots.txt, находящемся в корне (https://www.example.com/robots.txt).), который может содержать ссылку на карту сайта xml со списком ссылок на сайте, которые могут быть или не быть исчерпывающими.

Yousaf · Answer 2 · 02 сентября 2018

Используйте Xenus Link Sleuth, WebCheck и DRKSpider.

Вот ссылки ниже

Ссылка Sleuth: http://home.snafu.de/tilman/xenulink.html
WebCheck: https://arthurdejong.org/webcheck/
DRKSpider: http://www.drk.com.ar/spider.php

Cosmic Ossifrage · Answer 3 · 02 сентября 2018

Если страницы связаны гиперссылками со страницы в корне, вы можете легко spider сайта, перейдя по внутренним ссылкам. Для этого потребуется загрузить корневую страницу, проанализировать ее гиперссылки, загрузить эти страницы и повторять, пока новые ссылки не будут обнаружены. Вам нужно будет реализовать обнаружение циклов, чтобы избежать сканирования уже просканированных страниц. Пауки не тривиальны, чтобы действовать вежливо; многие сайты предоставляют метаданные через файлы robots.txt или иным образом, чтобы указать, какие части своего сайта они не хотят индексировать, и они могут работать медленно, чтобы избежать чрезмерного использования ресурсов сервера. Вы должны уважать эти нормы.

Однако учтите, что не существует общего способа перечисления всех страниц, если они явно не связаны с сайтом. Для этого потребуется:

что сайт разрешает распечатку каталогов, чтобы вы могли идентифицировать все файлы, хранящиеся по этим путям. Большинство сайтов не предоставляют такую услугу; или
сотрудничество с оператором сайта или веб-сервером для поиска всех страниц, перечисленных под этими путями; или
перебор всех возможных URL-адресов по этим путям, что является практически неограниченным набором. Осуществление такого поиска не будет вежливым по отношению к оператору сайта, является чрезмерно сложным с точки зрения времени и усилий и не может быть исчерпывающим.

Как найти все сайты по определенному URL.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как найти все сайты по определенному URL.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов