Мне удалось создать простую программу для URL-адресов веб-страниц и перевести html, извлеченный на английский.Однако для этого конкретного веб-сайта (ссылка ниже) "html.find_all ('p')" также извлекает нежелательные теги p, встроенные в теги привязки.
Пример 1. HTML-код, который мне не нужен
<p>Baca: <a href="https://nasional.tempo.co/read/1216929/soenarko-sarankan-kivlan-zen-berhati-hati-omongan-diviralkan">Soenarko Sarankan Kivlan Zen Berhati-hati Omongan Diviralkan</a></p>
Пример 2: HTML, который я хочу
<p>"Ya, jadi penangguhan penahanan ini, pertama kami memang mengajukan penangguhan penahanan," kata Ferry membuka sesi wawancara. Hari itu, Mabes Polri telah mengabulkan penanggungan penahanan terhadap Soenarko yang menjadi tersangka kepemilikan senjata ilegal.</p>
Есть ли способ, с помощью которого я могу получить код для фильтрации примера 1 и сохранить только пример 2?
link = "https://nasional.tempo.co/read/1216914/moeldoko-penangguhan-penahanan-soenarko-bisa-diterima"
webpage_response = requests.get(link)
webpage = webpage_response.content
page = BeautifulSoup(webpage, "html.parser")
html_title = page.find("title")
title2 = html_title.get_text()
title = title2.strip("- Bisnis Tempo.co")
html = page.find(attrs={"itemprop": "articleBody"})
text = html.find_all("p")