Как разобрать текст с веб-контента в Java? - PullRequest
0 голосов
/ 11 ноября 2010

Я хотел бы проанализировать веб-контент и получать только текст из веб-контента. Я получаю веб-контент в виде HTML / Java-сценария. Теперь мне нужен только текст из контента. Может ли кто-нибудь помочь мне в этом? Я использую парсер HTML для этого.

Например, мне нужно текстовое содержимое в файле ниже, выделенное жирным шрифтом.

Класс <strong>URLConnection</strong> содержит много методов, которые позволяют вам общаться с URL по сети. URLConnection является HTTP-ориентированным классом; тот многие из его методов полезны только при работе с HTTP URL-адрес. Тем не менее, большинство протоколов URL позволяют читать и писать в связь. В этом разделе описаны обе функции.

Может кто-нибудь предложить мне или предоставить пример кода для этого. Заранее спасибо.

Ответы [ 3 ]

0 голосов
/ 11 ноября 2010

Неортодоксальный метод, который мне нравится использовать, - это такие инструменты, как HtmlUnit , который в основном предназначен для модульного тестирования, но имеет расширенные возможности синтаксического анализа xpath, обеспечивает автоматический вход в систему и возможности обработки сеансов. *

0 голосов
/ 11 ноября 2010

Я рекомендую использовать HtmlUnit для загрузки через Интернет и Jsoup в качестве парсера html / xml.

Я использую их для извлечения информации с веб-сайтов (поиск Google тоже).

0 голосов
/ 11 ноября 2010

Вы можете использовать Html-парсер.Безопасный выбор будет HtmlParser .

...