wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@" > sedlog.txt
Это создает файл с именем sedlog.txt
, который содержит все ссылки, найденные на указанном веб-сайте. Вы можете использовать PHP или скрипт оболочки, чтобы преобразовать карту сайта с текстовым файлом в карту сайта XML. Настройте параметры команды wget (принять / отклонить / включить / исключить), чтобы получить только нужные вам ссылки.