Java, чтобы знать все субурлы URL - PullRequest
0 голосов
/ 30 августа 2010

У меня есть URL.Как узнать все существующие подпункты этой страницы.Например,

  1. http://tut.by/car/12324 - существует
  2. ................ / car / 66666 - несуществует

Желательно, в Java.Я уже экспериментировал почти со всеми из java-source.net/open-source/crawlers - никто не может этого сделать, они могут идти только по ссылкам.Спасибо заранее!

Ответы [ 3 ]

2 голосов
/ 30 августа 2010

Это будет почти невозможно, если нет индексной страницы.Хотя многие веб-серверы будут создавать для вас индексную страницу HTML, если она не предоставлена ​​создателем сайта, по соображениям безопасности очень распространена практика отключения списка каталога.

2 голосов
/ 30 августа 2010

То, что вы ищете, невозможно.Сервер определяет фактическое значение пути в URL-адресе, и невозможно «угадать», если вы не знаете много о сервере и о том, как он обрабатывает URL-адреса.

0 голосов
/ 30 августа 2010

Я согласен, информация, которую вы будете искать, будет указана на главной странице.Т.е. иногда вы заходите на сайт и удаляете часть "page.html".И когда вы видите все страницы и папки в этом каталоге.

Но, как уже упоминалось, это часто отключается по соображениям безопасности, поэтому пользователи не могут бродить по нему.

Поэтому другие ваши варианты:либо

A) Угадайте, просто продолжайте пробовать разные комбинации, чтобы грубо форсировать URL страницы, 00001, 00002, 00003 и т. д.

B) Сканирование сайта начинается с корня, ища ссылкистраницу на другую страницу на сайте, пока все ссылки не будут исчерпаны.Очевидно, что на страницах сайта ссылки на него никогда не будут найдены.

C) Как владелец веб-сайта для запрашиваемой вами информации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...