Попробуйте этот простой маленький скрипт, используя wget, и grep может быть отличным маленьким помощником:
wget --no-verbose --recursive --spider --force- html --level = DEPTH_LEVEL - -no-directoryies --reject = jpg, jpeg, png, gif YOUR_DOMAIN 2> & 1 | сортировать | Uniq | grep -oe 'www [^] *'
В результате получается список всех URI в зависимости от установленного вами DEPTH_LEVEL (например, 5), он сортирует все картинки и заставляет сканировать файлы html. Затем вы можете сохранить выходные данные в один файл, добавив> result.txt после оператора. Вы можете просто изменить соответствующий шаблон, например, заменив www into http: //, чтобы получить более подходящие результаты.
Сценарий не сохраняет никаких данных или содержимого с веб-сайта. Это просто «пауки» структуры и не создает никаких каталогов