Как не получить содержимое дочерних элементов в HtmlUnit? - PullRequest
0 голосов
/ 03 мая 2011

У меня есть следующее:

<th>
Q4/10
<br>
<span> Nov 30, 2010 </span>
</th>

, и я хотел бы получить Q4/10, но не следующую дату.Я не уверен, как это сделать в HtmlUnit.Я знаю, что могу разделить оба элемента на пробелы, а затем взять все перед первым пробелом, но я ищу что-то на основе самих тегов.

1 Ответ

1 голос
/ 04 мая 2011

Если вы знаете, что текст, который вы хотите, приходит до любых вложенных элементов, вы можете просто захватить его первый дочерний элемент, который будет содержать ваш текст и некоторые пробелы:

HtmlTableHeaderCell th = ...
System.err.println( th.getFirstChild().toString().trim() ) ;

более общим решением было бы перебрать дочерние элементы th для поиска текстовых узлов и игнорирования подэлементов.

...