Лучший Java-библиотека для http-соединений? - PullRequest
8 голосов
/ 02 июля 2010

Привет, все, что я пишу простой веб-скрипт сканирования, который должен подключиться к веб-странице, автоматически выполнить перенаправления 302, дать мне окончательный URL-адрес по ссылке и позволить мне получить HTML.предпочтительный Java-библиотека для таких вещей?

спасибо

Ответы [ 2 ]

9 голосов
/ 02 июля 2010

Для этого вы можете использовать Apache HttpComponents Client (или "простой ваниль" встроенного Java SE и подробный URLConnection API).Для HTML-анализа / обхода / манипуляции Jsoup может быть полезным .

Обратите внимание, что немного приличный сканер должен подчиняться robots.txt ,Возможно, вы захотите взглянуть на существующие веб-сканеры на основе Java, например J-Spider Apache Nutch .

2 голосов
/ 02 июля 2010

Как сказал BalusC, взгляните на Apache HttpComponents Client.Проект Nutch решил множество сложных проблем сканирования / извлечения / индексации, поэтому, если вы хотите увидеть, как они решают следующие 302, взгляните на http://svn.apache.org/viewvc/nutch/trunk/src/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...