Как собрать все ссылки на сайте без контента? - PullRequest
1 голос
/ 04 августа 2010

Я хотел бы получить все URL-адреса, на которые ссылается сайт (в одном домене), без загрузки всего контента с помощью чего-то вроде wget. Есть ли способ указать wget просто перечислить ссылки, которые он будет загружать?

Для небольшой предыстории того, для чего я использую это, если кто-то может найти лучшее решение: я пытаюсь создать файл robots.txt, который исключает все файлы, заканчивающиеся на p [4-9]. HTML, но robots.txt не поддерживает регулярные выражения. Поэтому я пытаюсь получить все ссылки, а затем запустить для них регулярное выражение и поместить результат в файл robots.txt. Есть идеи?

1 Ответ

0 голосов
/ 04 августа 2010

Моя рекомендация: объединить wget и gawk в (очень) небольшой скрипт оболочки.

В Википедии есть хороший обзор AWK: http://en.wikipedia.org/wiki/AWK

...