Использовать HtmlUnit в качестве сканера - PullRequest
1 голос
/ 01 ноября 2011

Мне нужен безголовый браузер для разбора страниц. HtmlUnit позволяет мне настроить приложение Heroku Java, чтобы выполнить эту задачу.

Но сейчас я встречаюсь с парой вопросов.

Текущим является неправильный URL "// путь" вместо "/ путь" или "http (s): // путь". Я скачал исходники версии 2.9.4 и вставил крошечные исправления в исходники ... Не очень эффективно модифицировать стандартные источники по очевидным причинам ремонтопригодности.

Мне так интересно, не копаю ли я в неправильном направлении. HtmlUnit предназначен для просмотра страниц в целях тестирования. Моя задача - вести себя как браузер, поэтому работа с страницами должна быть максимально возможной, особенно потому, что мои проклятые целевые сайты являются чем-то вроде «грязного, не уважающего ничего» ...

Что вы думаете об этой ретроспекции?

1 Ответ

0 голосов
/ 01 ноября 2011

Блок HTML используется в Selenium 2 / Web Driver для "симуляции" браузера без головы. Там все отлично работает.

Так что я не вижу причин, чтобы не попробовать Html Unit. Можете взглянуть на Selenium 2 / Web Driver тоже.

...