Как извлечь div без класса, используя jsoup? - PullRequest
1 голос
/ 24 сентября 2019

Как извлечь каждое поле?Я не могу получить div без какого-либо класса, div также имеет класс.

<div class="donut-text d-lg-table-cell pt-sm pt-lg-0 pl-lg-sm">
 <div>David M. XYZ</div>
 <div class="numCEORatings">194 Ratings</div>
</div>
val field = Doc.select("div.donut-text.d-lg-table-cell.pt-sm.pt-lg-0.pl-lg-sm")
println(field.text())

//This gives both>> David M. XYZ 194 Ratings
//How to extract each

1 Ответ

1 голос
/ 24 сентября 2019

Ваш текущий селектор нацелен на самый внешний div.Поэтому, когда вы вызываете .text, вы получаете объединенное содержимое внешнего div с удаленной разметкой HTML.

Чтобы выбрать внутренние элементы, добавьте * к вашему текущему селектору.

val html =
  """
      <div class="donut-text d-lg-table-cell pt-sm pt-lg-0 pl-lg-sm">
        <div>David M. XYZ</div>
        <div class="numCEORatings">194 Ratings</div>
      </div>
  """

val Doc: Document = Jsoup.parse(html)
val elements: Elements = 
  Doc.select("div.donut-text.d-lg-table-cell.pt-sm.pt-lg-0.pl-lg-sm *")

elements.toArray.foreach { el =>
  println(el)
}

Если вы просто хотите исключить второй элемент div из выделения, вы можете использовать :not CSS-селектор:

Doc.select("div.donut-text.d-lg-table-cell.pt-sm.pt-lg-0.pl-lg-sm *:not(.numCEORatings)")
...