Wget: сохранить URL при сканировании веб-страниц - PullRequest
0 голосов
/ 31 января 2020

Моя проблема с использованием wget заключается в том, что некоторые веб-страницы заканчиваются на /, но они сохраняются wget как /index.html. Поэтому, когда я восстанавливаю URL из пути к файлу html, соответствующая страница не существует.

Есть ли способ сохранить исходный URL вместе с содержимым HTML страницы с помощью wget? ? Спасибо.

1 Ответ

0 голосов
/ 31 января 2020

Попробуйте этот простой маленький скрипт, используя wget, и grep может быть отличным маленьким помощником:

wget --no-verbose --recursive --spider --force- html --level = DEPTH_LEVEL - -no-directoryies --reject = jpg, jpeg, png, gif YOUR_DOMAIN 2> & 1 | сортировать | Uniq | grep -oe 'www [^] *'

В результате получается список всех URI в зависимости от установленного вами DEPTH_LEVEL (например, 5), он сортирует все картинки и заставляет сканировать файлы html. Затем вы можете сохранить выходные данные в один файл, добавив> result.txt после оператора. Вы можете просто изменить соответствующий шаблон, например, заменив www into http: //, чтобы получить более подходящие результаты.

Сценарий не сохраняет никаких данных или содержимого с веб-сайта. Это просто «пауки» структуры и не создает никаких каталогов

...