Вам нужно в основном сканировать сайт. Ваш процесс будет выглядеть примерно так:
- Начать с корневого домена / домашней страницы
- Поиск всех ссылок, которые указывают в пределах одного домена
- Для каждой из этих ссылок повторите шаги
Ваш цикл завершается, когда больше нет ссылок для сканирования, указывающих в том же домене. Не забудьте остаться на сайте, иначе вы начнете сканировать внешние сайты.
Вы также можете попытаться проанализировать карту сайта, если она у вас есть.
Одним из инструментов, который может оказаться полезным при использовании Java, является JSpider или Sphider в PHP.