пройти определенный путь веб-сайта с аутентификацией. Веб-сканер или стандартный HttpClient? - PullRequest
2 голосов
/ 05 декабря 2011

Я должен пройти веб-сайт по определенному пути и извлечь из него информацию.Ниже приведены действия высокого уровня.Оцените, если кто-то может сообщить мне, нужен ли мне веб-сканер, или мне лучше кодировать этот поток с помощью встроенной функциональности HttpClient или JDK.

  1. Перейти на веб-сайт
  2. Войтииспользование формы (переход на http (s))
  3. Нажмите на конкретную ссылку (переход на http)
  4. Заполните данные формы и нажмите кнопку поиска
  5. веб-сайт возвращает результаты по одной странице за раз
  6. Нажмите на каждый результат поиска
  7. Извлечение данных по этой ссылке
  8. выполняйте шаги 6 и 7, пока не будут прочитаны все результаты поиска.

1 Ответ

0 голосов
/ 12 октября 2014

Я знаю, что это старый вопрос, но если кто-то ищет существующий веб-сканер, который делает это, знайте, что Norconex HTTP Collector - это веб-сканер, поддерживающий аутентификацию на основе форм. Вы можете указать свои начальные URL-адреса в дополнение к URL-адресу формы входа. Он будет входить в систему и сканировать ваш сайт / URL-адреса, как вы ожидаете. Он будет следовать либо всем ссылкам, либо только тем, которые соответствуют вашим критериям (шаблон регулярных выражений, максимальные URL-адреса, максимальная глубина и т. Д.). Он может интегрироваться с различными поисковыми системами (Solr, Elasticsearch, Autonomy IDOL и т. Д.) Или вы можете сами определить, что делать с просканированными документами.

...