Есть много веб-пауков, но они просто ловят HTML-форму Интернета. Мне нужен веб-паук, какой-нибудь метод или идея для улавливания динамической веб-страницы, и я могу выполнить javascript, и я могу получить информацию из дерева dom.
Если вы знакомы с Java, вы можете попробовать Http Unit http://httpunit.sourceforge.net/ HttpUnit очень интуитивно понятен и прост в использовании. Он был создан для модульного тестирования веб-приложений, но он может быть очень мощным инструментом для сканирования веб-страниц. Он имеет встроенный движок для JavaScript. Также в комплекте много полезных библиотек.
Чем больше вы захотите, чтобы ваш паук вел себя как настоящий браузер, тем больше вам понадобится настоящий браузер; Итак, я рекомендую начать с безголового браузера, например Crowbar . Из его описания:
Цель [Crowbar] - разрешить запуск скребков javascript для DOM, чтобы автоматизировать очистку веб-сайтов, но избежать всех проблем нормализации синтаксиса.