Я хотел бы получить все URL-адреса, на которые ссылается сайт (в одном домене), без загрузки всего контента с помощью чего-то вроде wget. Есть ли способ указать wget просто перечислить ссылки, которые он будет загружать?
Для небольшой предыстории того, для чего я использую это, если кто-то может найти лучшее решение: я пытаюсь создать файл robots.txt, который исключает все файлы, заканчивающиеся на p [4-9]. HTML, но robots.txt не поддерживает регулярные выражения. Поэтому я пытаюсь получить все ссылки, а затем запустить для них регулярное выражение и поместить результат в файл robots.txt. Есть идеи?