Как заставить wget идти вниз и вверх по иерархии хостов - PullRequest
0 голосов
/ 21 июня 2019

wget возвращается на второй нижний уровень и не идет дальше. Если в качестве источника я указываю HTML-файл нижнего уровня, он анализирует его и идет дальше. Я думаю, что это может быть вызвано тем, что PDF-файлы, связанные с HTML-документом, находятся по другому пути к корневому файлу на сервере. Он нужен мне для извлечения всех файлов PDF с листьев этой иерархии, поскольку я собираюсь их вместе продвигать в рамках кампании по информированию о депрессии.

Я использую GNU Wget 1.19.4, построенную на Linux-GNU.

Я пробовал, --exclude, --exclude-directory, -l2, -l10, --continue и многие другие ключи. Мне нужно использовать команды --include или wget, чтобы захватить весь сайт. Если я использую -np, он не пойдет "вверх" в / docs

Этот код возвращает мне файлы HTML, но не следует по ссылкам в "самом низу" HTML-файлы.

wget  --mirror --include docs/default-source/research-project-files --include about-us/research-projects/research-projects/ https://www.beyondblue.org.au/about-us/research-projects/research-projects/

Этот код, когда я вручную указываю файл HTML, получает нужные мне файлы PDF.

wget  --mirror --include docs/default-source/research-project-files --include about-us/research-projects/research-projects https://www.beyondblue.org.au/about-us/research-projects/research-projects/online-forums-user-research

Я хочу, чтобы он посещал все файлы HTML в этой ветке, извлекал из них все ссылки в формате PDF и извлекал все файлы PDF из / docs

https://www.beyondblue.org.au/about-us/research-projects/research-projects/online-forums-user-research

Вот один из PDF-файлов. В каталоге / docs нет списка.

https://www.beyondblue.org.au/docs/default-source/research-project-files/online-forums-2015-report.pdf?sfvrsn=3d00adea_2

Лучшее, что я могу сделать, - это пройтись по сайту и получить HTML-файлы до этого уровня:

https://www.beyondblue.org.au/about-us/research-projects/research-projects/online-forums-user-research
https://www.beyondblue.org.au/about-us/research-projects/research-projects/networks-of-advocacy-and-influence-peer-mentors-in-beyond-blue-s-mental-health-forums
...
150 of them

Это похоже на настройку ограничения глубины или ограничения на прохождение пути или что-то в этом роде. Я подозреваю, что это легко заметить. Еще раз спасибо!

1 Ответ

0 голосов
/ 24 июня 2019

Хорошо, похоже, что wget может быть первым.Это означает, что получает все в каталоге, прежде чем перейти на страницы.Я не уверен в этом, но я позволил приведенному ниже запуску, и он, похоже, получил все листовые HTML-файлы, но затем вернулся в них после того, как получил все из них.

wget  -r  --verbose --include /docs/default-source/research-project-files/,/about-us/research-projects/research-projects/ https://www.beyondblue.org.au/about-us/research-projects/research-projects/

Конечно, запустив это иего остановка, когда казалось, что он остановился в нижнем слое HTML и не получил PDF-файлы, остановила его слишком рано.

...