<a href="/news/2018/05/israeli-army-projectiles-fired-israel-gaza-180529051139606.html">
<h2 class="top-sec-title">
Israel launches counterattacks in Gaza amid soaring tensions
</h2>
</a>
Я хочу использовать класс h2
, который называется "top-sec-title", и очистить текст на h2 с помощью href of a.Ниже приведен пример того, что я имел в виду ниже. Html имеет класс a
, который помог мне получить href и текст в его дочернем элементе, который в нижнем регистре равен h3
:
<a class="gs-c-promo-heading gs-o-faux-block-link__overlay-link gel-pica-bold nw-o-link-split__anchor" href="/news/world-us-canada-44294366">
<h3 class="gs-c-promo-heading__title gel-pica-bold nw-o-link-split__text">
Hurricane Maria 'killed 4,600 in Puerto Rico'
</h3>
</a>
Код ниже - это то, что я использовал для извлечения данных из источника HTML выше.
news = soup.find_all('a', attrs={'class':'gs-c-promo-heading gs-o-faux-block-
link__overlay-link gel-pica-bold nw-o-link-split__anchor'})
for item in news:
print(item.get(href))
print(item.text)