Я пытался создать скрипт Python, который на самом деле извлекает текст из определенного блока элемента, но должен исключить некоторый текст из вложенных братьев и сестер.
Это моя часть HTML, которую я пытаюсь очистить:
<div class="article_body">
<div id="articleBodyContents">
Stack Overflow
<br/>
Is Love
<br/>
<a href="https://example_site1.com" target="_blank">Ad</a>
<br/>
<a href="https://example_site2.com" target="_blank">Ad2</a>
</div>
</div>
Вот до сих пор я прогрессировал:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
divs = soup.findAll('div', {'id':'articleBodyContents'})
for ops in divs:
print(ops.text.replace('\n', '').strip())
Однако это выводит на печать:
Stack Overflow
Is love
Ad
Ad2
Я хочу только:
Stack Overflow
Is love