Удалить HTML-тег с веб-сайта - BeautifulSoup - PullRequest
0 голосов
/ 12 июня 2018

Я сканирую данные с веб-сайта.Этот сайт имеет такой код:

<span class="demo-span">
    <b>Tag b:</b> 
    <a href="...">Hello</a> 
     world!
</span>

Это то, что я пробовал:

new_data = data.find("span",{"class":"demo-span"})
print(new_data.get_text())

Ожидаемый результат:

Hello world!

Но фактический вывод:

Tag b: Hello world!

1 Ответ

0 голосов
/ 12 июня 2018

Вы можете использовать decompose() для удаления тега.

html = '''
<span class="demo-span">
    <b>Tag b:</b> 
    <a href="...">Hello</a> 
     world!
</span>'''

soup = BeautifulSoup(html, 'html.parser')

new_data = soup.find("span", {"class": "demo-span"})
new_data.b.decompose()
print(new_data.get_text(' ', strip=True))
# Hello world!
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...