Как выбрать конкретный текст для чистки - PullRequest
0 голосов
/ 30 декабря 2018

Я пытаюсь очистить следующий HTML, я хочу просто получить Some Header часть, а не additional info.

<li class="media"> 
     <div class="media-body"> 
      <a href="url.html"> <h4> Some Header <span class="label label-info"> additional Info </span> </h4> </a> Address info
      <br> 
     </div> </li>`

Я пытаюсь следующее:

   val li: Elements = ul.select("li") 
    val list: Elements = li.select("a") 
    val headers: Elements = list.select("h4")

`

и затем, когда я пытаюсь получить внутренний текст через, headers.text() я получаю и Some Header и additional Info

Как я могу только поцарапатьSome Header часть?

1 Ответ

0 голосов
/ 31 декабря 2018

Вы почти готовы к решению. Возможно, вы ищете вызов ownText :

String s = "<li class=\"media\"> \n" +
        "     <div class=\"media-body\"> \n" +
        "      <a href=\"url.html\"> <h4> Some Header <span class=\"label label-info\"> additional Info </span> </h4> </a> Address info\n" +
        "      <br> \n" +
        "     </div> </li>";

        Document document = Jsoup.parse(s);
        Elements element = document.select("li");

        Elements elements = element.select("a");
        System.out.println(elements.select("h4").first().ownText()); ;

Вывод:

Some Header
...