Как я могу получить HTML-теги в HTML-документе - PullRequest
0 голосов
/ 01 марта 2011

Эй, я хочу получить теги из HTML-документа.
Это все, что содержится в угловых скобках, включая угловые скобки. Как я могу сделать это на Java? Спасибо

Ответы [ 2 ]

3 голосов
/ 01 марта 2011
<!-- Read carefully -->
<b><![CDATA[<Everything in angle brackets ("<>") is a tag?>]]></b>

... и используйте html-анализатор.


Если вы хотите сделать это вручную, выполните итерацию по входным символам и определите для каждого < и >принадлежит ли он элементу тега или нет.Существуют некоторые правила (инструкции по обработке, комментарии, содержимое CDATA, угловые скобки в значениях атрибутов (!)).

Большинство анализаторов используют какой-либо шаблон switch/case для оценки каждого токена (символ в вашем случае).

2 голосов
/ 01 марта 2011

Я недавно использовал jsoup . Хороший API, простой в использовании и никаких проблем до сих пор. Даже не пытайтесь разобрать HTML самостоятельно. Смотрите Andreas_D ответ.

...