wget возвращается на второй нижний уровень и не идет дальше. Если в качестве источника я указываю HTML-файл нижнего уровня, он анализирует его и идет дальше. Я думаю, что это может быть вызвано тем, что PDF-файлы, связанные с HTML-документом, находятся по другому пути к корневому файлу на сервере. Он нужен мне для извлечения всех файлов PDF с листьев этой иерархии, поскольку я собираюсь их вместе продвигать в рамках кампании по информированию о депрессии.
Я использую GNU Wget 1.19.4, построенную на Linux-GNU.
Я пробовал, --exclude, --exclude-directory, -l2, -l10, --continue и многие другие ключи. Мне нужно использовать команды --include или wget, чтобы захватить весь сайт. Если я использую -np, он не пойдет "вверх" в / docs
Этот код возвращает мне файлы HTML, но не следует по ссылкам в "самом низу"
HTML-файлы.
wget --mirror --include docs/default-source/research-project-files --include about-us/research-projects/research-projects/ https://www.beyondblue.org.au/about-us/research-projects/research-projects/
Этот код, когда я вручную указываю файл HTML, получает нужные мне файлы PDF.
wget --mirror --include docs/default-source/research-project-files --include about-us/research-projects/research-projects https://www.beyondblue.org.au/about-us/research-projects/research-projects/online-forums-user-research
Я хочу, чтобы он посещал все файлы HTML в этой ветке, извлекал из них все ссылки в формате PDF и извлекал все файлы PDF из / docs
https://www.beyondblue.org.au/about-us/research-projects/research-projects/online-forums-user-research
Вот один из PDF-файлов. В каталоге / docs нет списка.
https://www.beyondblue.org.au/docs/default-source/research-project-files/online-forums-2015-report.pdf?sfvrsn=3d00adea_2
Лучшее, что я могу сделать, - это пройтись по сайту и получить HTML-файлы до этого уровня:
https://www.beyondblue.org.au/about-us/research-projects/research-projects/online-forums-user-research
https://www.beyondblue.org.au/about-us/research-projects/research-projects/networks-of-advocacy-and-influence-peer-mentors-in-beyond-blue-s-mental-health-forums
...
150 of them
Это похоже на настройку ограничения глубины или ограничения на прохождение пути или что-то в этом роде. Я подозреваю, что это легко заметить.
Еще раз спасибо!