Хотите скачать список html файлов, доступных с домашней страницы - PullRequest
0 голосов
/ 18 апреля 2020

Я очищаю заросший веб-сайт и хочу создать список html файлов (веб-страниц), доступ к которым можно получить с домашней страницы. Я не хочу загружать сами файлы, только их пути.

Существует ли какая-то комбинация параметров для wget, возможно, перенаправляющая выходные файлы, но не информация журнала, в / dev / null, которая может сделать это? Я посмотрел на страницу руководства wget, и она выглядит пугающе сложной. То, что я хочу сделать, это просто.

Кто-нибудь может подсказать, как получить список html файлов, доступных с root, на веб-сайте? Спасибо.

1 Ответ

0 голосов
/ 19 апреля 2020

Это работает в моих тестах:

wget -r -l 1 -A html --delete-after -nd https://yoururl.com 2>&1 | grep '^--' | cut -d' ' -f4- | uniq
...