Я пытаюсь проанализировать HTML с помощью XPath в Java.Рассмотрим этот HTML-код:
<td class="postbody">
<img src="...""><br />
<br />
<b>What is Blah?</b><br />
<br />
Blah blah blah
<br />
Обратите внимание, что «What Is Blah» содержится в теге ab и поэтому легко разбирается.Но "Бла-бла-бла" открыт, и поэтому я могу только поднять его, вызвав text () на его родительском узле.
Дело в том, что мне нужно пройти через это последовательно, помещаяimg вниз, затем выделенный жирным шрифтом текст, затем основной текст.Важно, что все заканчивается по порядку (его не нужно обрабатывать по порядку, если вы можете предложить способ, который занимает два прохода).
Так есть ли какие-либо предложения о том, как, если я получил вышесодержится в узле Java XPath, я могу пройти по очереди и получить то, что мне нужно?