Как wget может сохранить только определенные типы файлов, на которые ссылаются страницы, на которые ссылается целевая страница? - PullRequest
14 голосов
/ 11 июля 2011

Как wget может сохранить только определенные типы файлов, на которые ссылаются страницы, на которые ссылается целевая страница, независимо от домена, в котором находятся определенные файлы?

Пытаясь ускорить задачу, которую мне приходится делать часто.

Я копался в документации по wget и гуглил, но, похоже, ничего не работает. Я продолжаю получать только целевую страницу или подстраницы без файлов (даже используя -H), поэтому я, очевидно, плохо справляюсь с этим.

Так, например, example.com/index1/ содержит ссылки на example.com/subpage1/ и example.com/subpage2/, тогда как на подстраницах содержатся ссылки на example2.com/file.ext и example2.com/file2. ext и т. д. Однако example.com/index1.html может ссылаться на example.com/index2/, в котором есть ссылки на дополнительные страницы, которые мне не нужны.

Может ли wget даже сделать это, а если нет, то что вы предлагаете мне использовать? Спасибо.

Ответы [ 2 ]

15 голосов
/ 06 апреля 2013

Следующая команда сработала для меня.

wget -r --accept "*.ext" --level 2 "example.com/index1/"

Нужно сделать рекурсивно, поэтому следует добавить -r.

1 голос
/ 11 июля 2011

Примерно так должно работать:

wget --accept "*.ext" --level 2 "example.com/index1/"
...