Я пытаюсь извлечь XML-коды из HTML-источника. Источник выглядит так:
.
.
.
<h5>
<u>A</u>
</h5>
<ul class="listss">
<li>
<d>
<a href="link">
linktext
</a>
</d>
</li>
<li>
<d>
<a href="link2">
linktext2
</a>
</d>
</li>
</ul>
<h5>
<u>B</u>
</h5>
<ul class="listss">
.\
.(SAME TAGS AS ABOVE)
./
</ul>
<h5>
<u>C</u>
</h5>
<ul class="listss">
.\
.(SAME TAGS AS ABOVE)
./
</ul>
<h5>
<u>D</u>
</h5>
<ul class="listss">
.\
.(SAME TAGS AS ABOVE)
./
</ul>
На самом деле мне нужно родительское дочернее отношение, поэтому мне нужно сначала извлечь ячейку узла с узлом xpath. Но я не смог добиться диапазона XML-кода от "h5" до "/ ul". Так что мне нужны теги h5 и ul вместе. Вывод должен быть таким:
<h5>
<u>A</u>
</h5>
<ul class="listss">
<li>
<d>
<a href="link">
linktext
</a>
</d>
</li>
<li>
<d>
<a href="link2">
linktext2
</a>
</d>
</li>
</ul>
Я искал тонны ссылок и пробовал все, но ни один из этих кодов xpath не работал;
/.../*[self::dns:h5 or self::dns:ul]
/.../*[self::dns:h5|self::dns:ul]
/.../*[self::h5 or self::ul]
Любая идея, спасибо.