Question

Я хотел бы получить все URL-адреса, на которые ссылается сайт (в одном домене), без загрузки всего контента с помощью чего-то вроде wget. Есть ли способ указать wget просто перечислить ссылки, которые он будет загружать?

Для небольшой предыстории того, для чего я использую это, если кто-то может найти лучшее решение: я пытаюсь создать файл robots.txt, который исключает все файлы, заканчивающиеся на p [4-9]. HTML, но robots.txt не поддерживает регулярные выражения. Поэтому я пытаюсь получить все ссылки, а затем запустить для них регулярное выражение и поместить результат в файл robots.txt. Есть идеи?

Nick · Answer 1 · 04 августа 2010

Моя рекомендация: объединить wget и gawk в (очень) небольшой скрипт оболочки.

В Википедии есть хороший обзор AWK: http://en.wikipedia.org/wiki/AWK

Как собрать все ссылки на сайте без контента?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как собрать все ссылки на сайте без контента?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы