Соскоб HTML с поддержкой JS - PullRequest
1 голос
/ 19 июля 2011

Я пытаюсь очистить веб-страницу компании для целей автоматизации, но встроенные в страницу сценарии не позволяют полностью повторить запрос. Самая большая боль в скрипте, сгенерированном куки.

Я думал об автоматизации IE с помощью Watin, но мне не нравится это решение в служебном приложении.

Что вы посоветуете в этой ситуации?

Заранее спасибо.

Ответы [ 2 ]

1 голос
/ 09 августа 2011

screen-scraper - еще один инструмент (на основе Java), целью которого является простота использования.

Основная идея, как сказал Байрон, - вам нужно выяснить, какие куки устанавливаются (инструменты веб-прокси, такие как Fiddler , Charles , или расширения браузера, такие как Firebug и инструменты разработчика Chrome пригодятся).

Итак, вам не обязательно читать или даже выполнять javascript на странице, чтобы имитировать те же запросы. Просто используйте прокси-инструмент, чтобы увидеть, какие куки ваш браузер отправляет на сервер, и, как только вы узнаете, какие куки сайт ожидает получить, установите их вручную в любом скрипте или инструменте, который вы используете, чтобы выполнить очистку, и вы получите золотую награду.

0 голосов
/ 19 июля 2011

У вас есть несколько вариантов.

Самым простым является создание файлов cookie в вашем скрипте.Вы должны будете прочитать код javascript самостоятельно и выяснить, что он делает, и продублировать.Fiddler всегда твой друг при копировании.

Htmlunit - это библиотека веб-браузера java с поддержкой JavaScript.Он не имеет графического интерфейса и предназначен для тестирования веб-приложений.

Selenium будет управлять браузером так же, как и Watir, но он имеет богатую поддержку API для большинства основных языков.

...