Как отразить только раздел сайта? - PullRequest
48 голосов
/ 27 мая 2011

Я не могу получить wget для зеркалирования раздела сайта (путь к папке под корнем) - кажется, он работает только с домашней страницы сайта.

Я пробовал много вариантов - вот один пример

wget -rkp -l3 -np  http://somewebsite/subpath/down/here/

Хотя я хочу только зеркально отразить ссылки на контент под этим URL - мне также нужно загрузить все ресурсы страницы, которые не находятся по этому пути.домашняя страница (/), но я не могу запустить ее для каких-либо подпапок.

Ответы [ 4 ]

82 голосов
/ 04 августа 2011

Используйте опции --mirror (-m) и --no-parent (-np), а также несколько интересных, как в этом примере:

wget --mirror --page-requisites --adjust-extension --no-parent --convert-links
     --directory-prefix=sousers http://stackoverflow.com/users
17 голосов
/ 27 мая 2011

Я обычно использую:

wget -m -np -p $url
2 голосов
/ 23 июля 2011

Я использую pavuk для создания зеркал, поскольку это казалось намного лучше для этой цели с самого началаВы можете использовать что-то вроде этого:

/usr/bin/pavuk -enable_js -fnrules F '*.php?*' '%o.php' -tr_str_str '?' '_questionmark_' \
               -norobots -dont_limit_inlines -dont_leave_dir \
               http://www.example.com/some_directory/ >OUT 2>ERR
0 голосов
/ 01 февраля 2019

Проверьте archivebox.io, это самодостаточный инструмент с открытым исходным кодом, который создает локальный, статический, просматриваемый клон HTML-сайтов (он сохраняет HTML, JS, медиа-файлы, PDF-файлы, снимки экрана, статические ресурсы и многое другое).

По умолчанию он только архивирует указанный вами URL-адрес, но вскоре мы добавим флаг --depth=n, который позволит вам рекурсивно архивировать ссылки с указанного URL-адреса.

...