Есть ли простой способ добиться эффекта `--no-parent`, а также получить файлы из определенного каталога верхнего уровня с помощью wget? - PullRequest
0 голосов
/ 28 октября 2019

Использование wget версия 1.20.3 или выше ...

В настоящее время я использую такую ​​команду, чтобы сохранить статическую «резервную копию» моего блога, но только страницы в разделе «/ blog»:

wget --mirror --convert-links --adjust-extension --page-requisites --wait=1 https://example.com/blog

Однако , некоторые из моих страниц блога ссылаются на статические загружаемые файлы (обычно PDF; таким образом, расширения известны и предсказуемы), которые хранятся в«статический» каталог верхнего уровня, например,

https://example.com/static-files/file1.pdf или https://example.com/static-files/file2.png

Мне бы хотелось поведение --no-parent, когда загружаются только страницы под /blog, ноЯ бы также определенно хотел бы заархивировать все файлы, на которые есть ссылки, которые существуют в каталоге static-files.

Есть ли простой способ сделать это с помощью одной команды wget?

Если нет, есть ли разумный компромисс?

1 Ответ

0 голосов
/ 29 октября 2019

Я думаю это будет делать то, что мне нужно (он определенно загрузил статические файлы). Хотя казалось, что он загружает несколько разные наборы файлов, так что я не уверен на 100%, что может отличаться:

wget --mirror --convert-links --adjust-extension --page-requisites --wait=1  --include-directories="/s,/blog" https://example.com/blog/

Выходные каталоги, которые у меня сейчас есть, blog и static-files. blog содержит больше, чем было ... но я не смотрел почему.

Основное отличие состоит в том, что вместо исключения родительских каталогов мы только , включая каталоги, из которых мы хотим получить контент.

Я приветствую всех, кто разъяснит различия и объяснит, почему это может или не может быть правильным ответом.

...