используя grep для захвата ссылок javascript - PullRequest
0 голосов
/ 05 октября 2010

При использовании wget для создания статических копий моего сайта, однако, есть несколько элементов, которые требуют внешних ресурсов, которые извлекаются через javascript. Шаблон сценария должен быть довольно постоянным, и никакие URL-адреса не создаются динамически. URL-адреса, которые мне нужно извлечь, выглядят так:

onclick="return ns.homepage.load({e:this, src:'https://mysub.mydomain.tld/somedir/content/123456789.html'})"

Я бы хотел вывести список этих URL-адресов в локальный файл, чтобы я также мог их видеть.

1 Ответ

0 голосов
/ 07 ноября 2010

используйте perl + HTML :: TreeBuilder, чтобы получить свой боковой код, а затем проанализировать его.

Возможно, вам придется выполнить некоторую работу с регулярным выражением, то есть этот модуль может дать вам только возможность выпустить "onclick" () 'событие - но не должно быть слишком плохо, чтобы получить остальное.

...