Как извлечь простой текст указанной длины из HTML, используя Jsoup? - PullRequest
2 голосов
/ 27 июня 2011

Я использую строку html-тега парсинга jsoup-1.5.2, хочу извлечь простой текст из строки html, указать длину текста и сохранить нетронутый тег html.

examply:

HTML-код:

<p><span>Mike <u>stopp<b>ed</b></u> his work</span></p>

Я хочу результатов:

указать длину текста = 4

result:<p><span>Mike</span></p>

указать длину текста = 10

result:<p><span>Mike <u>stopp</u></span></p>

указать длину текста = 12

result:<p><span>Mike <u>stopp<b>ed</b></u></span></p>

указать длину текста = 16

result:<p><span>Mike <u>stopp<b>ed</b></u> his</span></p>

и т.д.

Могу ли я закончить его с помощью jsoup?

1 Ответ

0 голосов
/ 27 июня 2011

К сожалению, использование класса Element не так просто. Причина в том, что метод text () в классе Element «Получает объединенный текст этого элемента и всех его дочерних элементов». Это действительно раздражает, так как вы не можете просто получить текст одного элемента. Вам нужно будет использовать метод Elements.select(String).text() из класса Elements и, возможно, использовать подстановочный знак (если это возможно). Этот метод возвратит «объединенный» текст всех соответствующих узлов. Возвращается как одна строка, поэтому вы можете вызвать метод String 'length()' для нее.

...