Можете ли вы многократно и рекурсивно отражать сайт с помощью wget, не создавая копии структуры каталогов? - PullRequest
0 голосов
/ 04 июня 2019

Я хочу сохранить сайт, на котором размещено много файлов PDF, захватывая PDF-файлы с помощью wget, сохраняя при этом структуру каталогов сайта. Я хочу регулярно возвращаться на сайт, чтобы копировать любые новые файлы на сайте, но только повторно загружать новые файлы и / или каталоги. Другими словами, я хочу избежать копирования содержимого, которое уже было скопировано предыдущим запуском wget.

Проблема почти решена с помощью следующего:

wget -nv -m -np -c -w 3 --no-check-certificate -a /path/to/logfile -R "index.html*" -P /path/to/copy "https://source.site/source-directory/"

Это только копирует новые файлы, но, кажется, создает новые экземпляры файлов каталогов и подкаталогов с именами их directory.1, directory / sub-directory.1 и т. Д. Есть ли способ избежать такого поведения?

...