Получение текста веб-страницы с помощью HTTPClient - PullRequest
1 голос
/ 07 июля 2010

Я только начинаю с HTTPClient , и я хочу взять веб-страницу и извлечь из нее необработанный текст минус всякую HTML-разметку.

Может ли HTTPClient это сделать?Если так, то как?Или есть другая библиотека, на которую я должен смотреть?

, например, если страница содержит

<body><p>para1 test info</p><div><p>more stuff here</p></div>

Я бы хотел, чтобы она вывела

para1 test info more stuff here

Ответы [ 4 ]

1 голос
/ 07 июля 2010

Я бы предложил использовать HttpComponents Client (HTTPClient 4) (вместо версии 3, на которую вы ссылались).

При этом он не зависит от клиентской библиотеки HTTP (есть и другие).Что вам нужно, это преобразовать HTML в простой текст.Это может быть интересно: http://www.rgagnon.com/javadetails/java-0424.html

1 голос
/ 07 июля 2010

Нет. HttpClient обрабатывает сетевой протокол - отправка запросов и получение ответов. Вам решать, что делать с ответом, как только вы его получите. Тем не менее, вы можете использовать другие библиотеки для разбора HTML, как предлагали другие.

0 голосов
/ 07 июля 2010

Как уже упоминалось, вам нужна библиотека для разбора HTML. Здесь является актуальным вопросом.

0 голосов
/ 07 июля 2010

Библиотека парсера HTML может быть тем, что вы ищете.Позволяет извлекать контент из документа HTML.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...