Разбор только внешнего текста основного текста - PullRequest
0 голосов
/ 16 мая 2018

Я использовал JSoup для разбора HTML. Как я могу получить только основной текст? Я имею в виду, что я хочу только внешний текст, не включая текст другого тега.

(Музыка заставляет нас мыслить красноречиво.)

<html>
    <body>
        <p class=\"mm3h\">ဂီတကဆွဲဆောင်အားကောင်းတဲ့ကျွန်တော်တို့ကိုဖြစ်စေတယ်လို့ထင်တယ်။</p> 
        Music causes us to think eloquently.
        <a class=\"\" href=\"\" aria-label=\"--Ralph Waldo Emerson (1 item)\">--Ralph Waldo Emerson</a>
    </body>
<html>

Ответы [ 2 ]

0 голосов
/ 16 мая 2018

Я знаю, что на вопрос уже дан ответ, и ответ помечается как принятый ответ, но я думаю, что есть другой способ получить то, что было задано:

JSoup предлагает ownText() метод.с этим вы можете получить все текстовые узлы элемента, которые являются прямыми потомками элемента.Дочерние элементы и их текстовые узлы не возвращаются.

Document doc = Jsoup.parse("<body> text <p> not included </p> included </body>");
Element body = doc.body();
String ownText = body.ownText();
0 голосов
/ 16 мая 2018
Document doc = Jsoup.parse("<body> your content </body>");
String body = doc.body().textNodes().get(1).text();
...