Рекурсивное зеркалирование веб-страницы после выполнения JS - PullRequest
0 голосов
/ 31 мая 2018

Я пытаюсь рекурсивно отразить веб-страницу, например, получить все страницы на одной веб-странице.Все веб-страницы находятся в подпапках только одной папки, поэтому я мог бы легко отразить все веб-страницы с помощью wget:

wget --mirror --recursive --page-requisites --adjust-extension --no-parent --convert-links https://www.example.com/

Однако страница зеркалируется перед выполнением некоторых сценариев JS, и теJS-скрипты не отражаются.Мне тоже нужно как-то их отразить, потому что они меняют DOM веб-страницы.Другой вариант - подождать, пока сайт завершит загрузку и зеркалирование загруженной веб-страницы (задача не является критичной по времени).

Я уже пробовал зеркалировать веб-страницу с помощью PhantomJS, но не могу использоватьрекурсия с использованием PhantomJS, или, по крайней мере, я не мог узнать, как.Я также более внимательно посмотрел на справочную страницу wget, но не смог найти ни одной соответствующей опции.

Есть ли возможность сделать это?Заранее спасибо.

1 Ответ

0 голосов
/ 09 октября 2018

wget не выполняет никакой JavaScript.Возможно, вам придется пройти через прокси, как splash .Раньше я использовал всплеск с пауками-скрапами, но никогда не использовал wget.Хотя стоит попробовать

...