Незакрытый тег div, заставляющий Jsoup дублировать объект - PullRequest
0 голосов
/ 10 февраля 2020

Я пытаюсь проанализировать веб-сайт, однако у меня возникают некоторые проблемы из-за того, что div не закрываются, что приводит к дублированию результатов. По ссылке ниже вы можете увидеть пример html с проблемой, которую я пытаюсь решить.

https://try.jsoup.org/~ZgrRams0ZaoOWw73sGDrV7Zz0iU

Что было бы лучше всего this?

Редактировать : Ниже приведен фрагмент кода, показывающий мою проблему:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class test {

    private static final String HTML = "<div class=\"content-item\"><div class=\"col-md-9\" style="
            + "\"padding-left: 0px;\"><h2 class=\"child-debate-title hs_6bDepartment\">"
            + "Wales</h2></div><div class=\"content-item\">"
            + "<div class=\"col-md-9\" style=\"padding-left: 0px;\">"
            + "<h2 class=\"child-debate-title hs_8Question\">Welsh Language</h2>"
            + "</div>";

    public static void main(String args[]) {
        Document doc = Jsoup.parse(HTML);
        Elements elements = doc.select("div.content-item");
        System.out.println(elements.html());
    }
}

Вывод следующий:

<div class="col-md-9" style="padding-left: 0px;">
 <h2 class="child-debate-title hs_6bDepartment">Wales</h2>
</div>
<div class="content-item">
 <div class="col-md-9" style="padding-left: 0px;">
  <h2 class="child-debate-title hs_8Question">Welsh Language</h2>
 </div>
</div>
<div class="col-md-9" style="padding-left: 0px;">
 <h2 class="child-debate-title hs_8Question">Welsh Language</h2>
</div>

Мне нужно получить div content-item, так как внутри этого div вложен контент для других частей страницы.

...