Ознакомьтесь с полным рабочим примером, представленным в Соскребая страницы, полные JavaScript . Он использует Web :: Scraper для обработки HTML и Gtk3 :: WebKit для обработки динамического содержимого. Тем не менее, более поздняя версия является достаточно PITA для установки. Если вам нужно очистить не так много страниц (<1000), выборка постобработанного контента DOM через <a href="http://phantomjs.org/" rel="nofollow"> PhantomJS является интересной опцией. Для этой цели я написал следующий скрипт:
var page = require('webpage').create(),
system = require('system'),
fs = require('fs'),
address, output;
if (system.args.length < 3 || system.args.length > 5) {
console.log('Usage: phantomjs --load-images=no html.js URL filename');
phantom.exit(1);
} else {
address = system.args[1];
output = system.args[2];
page.open(address, function (status) {
if (status !== 'success') {
console.log('Unable to load the address!');
} else {
fs.write(output, page.content, 'w');
}
phantom.exit();
});
}
Что-то подобное уже есть в CPAN, это модуль с именем Wight , но я еще не тестировал его.