WGET - загрузка файлов c (по расширению или MIME) со сторонних веб-сайтов. - PullRequest
0 голосов
/ 29 апреля 2020

Мне нужно получить ВСЕ файлы расширения ". js" с веб-сайта с помощью wget, включая сторонние, но это не всегда делается.

Я использую следующий код:

wget -H -p -A "*.js" -e robots=off --no-check-certificate https://www.quantcast.com

Например, если я выполню wget для "{ ссылка }", я хочу получить все "*. js" файлы из stackoverflow.com, но также сторонние веб-сайты, такие как "scorecardresearch.com", "secure.quantserve.com" и другие.

Что-то не хватает в моем коде?

Заранее спасибо!

1 Ответ

0 голосов
/ 29 апреля 2020

Wget с флагом -p будет загружать только простые требования к страницам, такие как сценарии с src, ссылки с href или изображения с src.

Часто загружаются сторонние сценарии динамически с использованием фрагментов скрипта (таких как Google Tag Manager https://developers.google.com/tag-manager/quickstart). Эти динамически загружаемые скрипты не будут загружаться Wget, так как им нужно запустить JavaScript для фактической загрузки. Чтобы получить абсолютно все, вам, вероятно, понадобится что-то вроде Pupeteer или Selenium для загрузки страницы и очистки содержимого.

...