Question

Я только начинаю с HTTPClient , и я хочу взять веб-страницу и извлечь из нее необработанный текст минус всякую HTML-разметку.

Может ли HTTPClient это сделать?Если так, то как?Или есть другая библиотека, на которую я должен смотреть?

, например, если страница содержит

<body><p>para1 test info</p><div><p>more stuff here</p></div>

Я бы хотел, чтобы она вывела

para1 test info more stuff here

Bruno · Answer 1 · 07 июля 2010

Я бы предложил использовать HttpComponents Client (HTTPClient 4) (вместо версии 3, на которую вы ссылались).

При этом он не зависит от клиентской библиотеки HTTP (есть и другие).Что вам нужно, это преобразовать HTML в простой текст.Это может быть интересно: http://www.rgagnon.com/javadetails/java-0424.html

Dragisa Krsmanovic · Answer 2 · 07 июля 2010

Нет. HttpClient обрабатывает сетевой протокол - отправка запросов и получение ответов. Вам решать, что делать с ответом, как только вы его получите. Тем не менее, вы можете использовать другие библиотеки для разбора HTML, как предлагали другие.

laz · Answer 3 · 07 июля 2010

Как уже упоминалось, вам нужна библиотека для разбора HTML. Здесь является актуальным вопросом.

Jeff · Answer 4 · 07 июля 2010

Библиотека парсера HTML может быть тем, что вы ищете.Позволяет извлекать контент из документа HTML.

Получение текста веб-страницы с помощью HTTPClient

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получение текста веб-страницы с помощью HTTPClient

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов