Я пытаюсь проанализировать веб-сайт, однако у меня возникают некоторые проблемы из-за того, что div не закрываются, что приводит к дублированию результатов. По ссылке ниже вы можете увидеть пример html с проблемой, которую я пытаюсь решить.
https://try.jsoup.org/~ZgrRams0ZaoOWw73sGDrV7Zz0iU
Что было бы лучше всего this?
Редактировать : Ниже приведен фрагмент кода, показывающий мою проблему:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class test {
private static final String HTML = "<div class=\"content-item\"><div class=\"col-md-9\" style="
+ "\"padding-left: 0px;\"><h2 class=\"child-debate-title hs_6bDepartment\">"
+ "Wales</h2></div><div class=\"content-item\">"
+ "<div class=\"col-md-9\" style=\"padding-left: 0px;\">"
+ "<h2 class=\"child-debate-title hs_8Question\">Welsh Language</h2>"
+ "</div>";
public static void main(String args[]) {
Document doc = Jsoup.parse(HTML);
Elements elements = doc.select("div.content-item");
System.out.println(elements.html());
}
}
Вывод следующий:
<div class="col-md-9" style="padding-left: 0px;">
<h2 class="child-debate-title hs_6bDepartment">Wales</h2>
</div>
<div class="content-item">
<div class="col-md-9" style="padding-left: 0px;">
<h2 class="child-debate-title hs_8Question">Welsh Language</h2>
</div>
</div>
<div class="col-md-9" style="padding-left: 0px;">
<h2 class="child-debate-title hs_8Question">Welsh Language</h2>
</div>
Мне нужно получить div content-item, так как внутри этого div вложен контент для других частей страницы.