Возможно, вас заинтересует Pjscrape (заявление об отказе: это мой проект), библиотека с открытым исходным кодом, созданная на основе PhantomJS.Он имеет встроенную поддержку паутинных страниц и извлечения информации с каждой из них по мере продвижения.Вы можете сделать паук всего сайта, просматривая каждую ссылку, с помощью короткого скрипта, подобного следующему:
pjs.addSuite({
url: 'http://www.example.com/your_start_page.html',
moreUrls: function() {
// get all URLs from anchor links,
// restricted to the current domain by default
return _pjs.getAnchorUrls('a');
},
scraper: function() {
// scrapers can use jQuery
return $('h1').first().text();
}
});
По умолчанию это пропустит страницы, на которых уже есть ссылки, и будет следовать только по ссылкам в текущем домене, хотя они могут обаизменить в ваших настройках.