используя Wget для получения каждого файла mp4 в ссылке на веб-сайт, который проверяет каждую ссылку в этой ссылке на наличие встроенных ссылок mp4 - PullRequest
1 голос
/ 18 марта 2020

Поэтому я хочу использовать wget для загрузки всех файлов mp4 с этого веб-сайта:

https://coursevania.courses.workers.dev/ [coursevania.com] Python% 20for% 20Data% 20Science% 20 и% 20Machine % 20Learning% 20Bootcamp /

Однако, когда я пытаюсь это сделать, он всегда загружает индексный файл и не проверяет ссылки на веб-сайте. Для загрузки ссылок на веб-сайты также требуется около нескольких секунд. Вы можете попробовать это на сайте. Я попытался

wget -r -l2 -nd -A'*.mp4*' https://coursevania.courses.workers.dev/[coursevania.com]Python%20for%20Data%20Science%20and%20Machine%20Learning%20Bootcamp/ 

Честно говоря, я понятия не имею, что я делаю, я также протестировал файл robots.txt и настроил его на игнорирование, но он все равно возвращает тот же результат, загружает файл индекса и останавливается. Я действительно новичок в wget.

1 Ответ

2 голосов
/ 19 марта 2020

Это невозможно.

Так как wget не является javascript движком, он не сможет узнать ссылку на ресурсы mp4 (только после выполнения javascript на странице) , Вид исходного кода страницы показывает, что он полностью генерируется с помощью этого сценария.
Если вам действительно нужно сделать это рекурсивно, вам следует рассмотреть возможность использования javascript. Посмотрите на https://phantomjs.org/.

...