У меня есть элемент Wikipedia, который выглядит так, что я хочу очистить с помощью Jsoup. Я хочу взять элементы в список строк и разделить их, когда есть
, если это имеет смысл. Прямо сейчас я зацикливаю Элементы во всех потомках, которые пропускают простые тексты, такие как CCCC и GGGG. Есть ли способ поймать простые тексты, а также гиперссылки?
<td class="" style="" itemprop="">
<a href="/wiki/%E5%9C%8B%E5%AD%B8%E9%99%A2%E5%A4%A7%E5%AD%B8" title="AAAA">AAAA</a>
<a href="/wiki/%E6%96%87%E5%AD%A6%E9%83%A8" title="BBBB">BBBB</a>
"CCCC"
<br>
"DDDD"
<a href="/wiki/%E5%A4%A7%E5%AD%A6%E9%99%A2" title="EEEE">EEEE</a>
<a href="/wiki/%E6%96%87%E5%AD%A6%E7%A0%94%E7%A9%B6%E7%A7%91" title="FFFF">FFFF</a>
<br>
GGGG
</td>
страница Википедии выглядит следующим образом (жирный текст - гиперссылки):
AAAABBBB CCCC
D DDD EEEEFFFF
GGGG
Я хочу создать такой список: [AAAABBBB CCCC, DDDDEEEEFFFF, GGGGG]