Question

Я хотел бы проанализировать веб-контент и получать только текст из веб-контента. Я получаю веб-контент в виде HTML / Java-сценария. Теперь мне нужен только текст из контента. Может ли кто-нибудь помочь мне в этом? Я использую парсер HTML для этого.

Например, мне нужно текстовое содержимое в файле ниже, выделенное жирным шрифтом.

Класс <strong>URLConnection</strong> содержит много методов, которые позволяют вам общаться с URL по сети. URLConnection является HTTP-ориентированным классом; тот многие из его методов полезны только при работе с HTTP URL-адрес. Тем не менее, большинство протоколов URL позволяют читать и писать в связь. В этом разделе описаны обе функции.

Может кто-нибудь предложить мне или предоставить пример кода для этого. Заранее спасибо.

Spring Monkey · Answer 1 · 11 ноября 2010

Неортодоксальный метод, который мне нравится использовать, - это такие инструменты, как HtmlUnit , который в основном предназначен для модульного тестирования, но имеет расширенные возможности синтаксического анализа xpath, обеспечивает автоматический вход в систему и возможности обработки сеансов. *

Impiastro · Answer 2 · 11 ноября 2010

Я рекомендую использовать HtmlUnit для загрузки через Интернет и Jsoup в качестве парсера html / xml.

Я использую их для извлечения информации с веб-сайтов (поиск Google тоже).

kgiannakakis · Answer 3 · 11 ноября 2010

Вы можете использовать Html-парсер.Безопасный выбор будет HtmlParser .

Как разобрать текст с веб-контента в Java?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как разобрать текст с веб-контента в Java?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы