Использование regEx для загрузки всего каталога с помощью wget - PullRequest
0 голосов
/ 14 апреля 2019

Я хочу скачать несколько PDF-файлов с URL, таких как это - https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf

Если я делаю wget по полному URL, он загружает файл wget https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf

Но если я пытаюсь рекурсивно загрузить всю папку, она возвращает 403 (запрещенный доступ)

wget -r https://dummy.site.com/aabbcc/xyz/

Я попытался установить пользовательский агент, отклонив robots.txt и множество других решений из Интернета, но я возвращаюсь к той же точке.

Поэтому я хочу сформировать список всех возможных URL-адресов, рассматривая данный URL-адрес как общий шаблон, и не знаю, как это сделать.

Я просто знаю, что могу передать этот файл как ввод в wget, который будет рекурсивно загружать файлы. Так что ищите помощь в формировании списка URL с помощью regEx здесь. Спасибо!

1 Ответ

1 голос
/ 15 апреля 2019

Вы не можете загружать, используя подстановочные знаки, файлы, которые вы не видите. Если хост не поддерживает список каталогов, вы не знаете, какие имена / пути. Кроме того, поскольку вы не знаете алгоритм генерации имен файлов, вы не можете сгенерировать и получить их.

...