веб-паук, какой-то метод или идея для ловли динамической веб-страницы? - PullRequest
0 голосов
/ 01 марта 2011

Есть много веб-пауков, но они просто ловят HTML-форму Интернета. Мне нужен веб-паук, какой-нибудь метод или идея для улавливания динамической веб-страницы, и я могу выполнить javascript, и я могу получить информацию из дерева dom.

Ответы [ 2 ]

0 голосов
/ 31 июля 2011

Если вы знакомы с Java, вы можете попробовать Http Unit http://httpunit.sourceforge.net/ HttpUnit очень интуитивно понятен и прост в использовании. Он был создан для модульного тестирования веб-приложений, но он может быть очень мощным инструментом для сканирования веб-страниц. Он имеет встроенный движок для JavaScript. Также в комплекте много полезных библиотек.

0 голосов
/ 01 марта 2011

Чем больше вы захотите, чтобы ваш паук вел себя как настоящий браузер, тем больше вам понадобится настоящий браузер; Итак, я рекомендую начать с безголового браузера, например Crowbar . Из его описания:

Цель [Crowbar] - разрешить запуск скребков javascript для DOM, чтобы автоматизировать очистку веб-сайтов, но избежать всех проблем нормализации синтаксиса.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...