автоматическое ведение журнала и очистка веб-страниц - PullRequest
0 голосов
/ 06 января 2012

У меня есть задача, где мне нужно выполнить автоматическую очистку и очистку определенного веб-сайта.

Я видел людей, предлагающих htmlUnit и HttpClient в основном с Java.htmlUnit выглядит как инструмент тестирования.Я не уверен, что с этим делать.Есть ли пример, который объясняет автоматический вход в систему и очистку веб-страниц с помощью htmlUnit или httpClient?

Я разработчик Java.Может кто-нибудь, кто тесно с ним работает, поделитесь какими-нибудь идеями?

1 Ответ

2 голосов
/ 06 января 2012

Ваша проблема может быть разбита на

  • войти на сайт
  • Скопируйте данные с сайта.

Итак, для первой части -:

  1. Установите LiveHTTP заголовок аддона Firefox, а затем прочитайте все http заголовки, которые были отправлены и получены вашим браузером при попытке Войти.

  2. Попробуйте отправить эти заголовки, используя ваш код Java, в основном у вас есть эмулировать HTTP POST запрос, используя ваш код Java. Для этого google->make post request from java

После того, как вы войдете в систему на веб-сайте, удалите данные, используя API по вашему выбору. Я лично использую htmlcleaner HtmlCleaner .

Для очистки данных вы можете использовать XPath expressions с htmlcleaner.

Взгляните на Xpath + htmlcleaner и здесь также

Вы также можете использовать JSoup вместо htmlcleaner. Преимущество использования JSoup в том, что он может обрабатывать как login[POST Request] and Data scraping. Взгляните сюда http://pastebin.com/E0WzpuhF

Я знаю, что это кажется большой работой, я предоставил вам два альтернативных решения для вашей проблемы, но разделите вашу проблему на более мелкие куски и затем попытайтесь ее решить.

...