Question

Есть много веб-пауков, но они просто ловят HTML-форму Интернета. Мне нужен веб-паук, какой-нибудь метод или идея для улавливания динамической веб-страницы, и я могу выполнить javascript, и я могу получить информацию из дерева dom.

svlada · Answer 1 · 31 июля 2011

Если вы знакомы с Java, вы можете попробовать Http Unit http://httpunit.sourceforge.net/ HttpUnit очень интуитивно понятен и прост в использовании. Он был создан для модульного тестирования веб-приложений, но он может быть очень мощным инструментом для сканирования веб-страниц. Он имеет встроенный движок для JavaScript. Также в комплекте много полезных библиотек.

Yuriy Nemtsov · Answer 2 · 01 марта 2011

Чем больше вы захотите, чтобы ваш паук вел себя как настоящий браузер, тем больше вам понадобится настоящий браузер; Итак, я рекомендую начать с безголового браузера, например Crowbar . Из его описания:

Цель [Crowbar] - разрешить запуск скребков javascript для DOM, чтобы автоматизировать очистку веб-сайтов, но избежать всех проблем нормализации синтаксиса.

веб-паук, какой-то метод или идея для ловли динамической веб-страницы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

веб-паук, какой-то метод или идея для ловли динамической веб-страницы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов