Как заменить тег на его значение в тексте - PullRequest
0 голосов
/ 27 декабря 2018

Как мне извлечь

Я люблю Python

из заданного HTML

I <img src="image.png" alt="love"> Python

Получение строки и разбиение не будет работать,текст контролируется пользователем и может содержать <>

1 Ответ

0 голосов
/ 27 декабря 2018

Есть несколько способов достичь этого.Один из способов сделать это - найти все элементы img и заменить их текстовым узлом, содержащим значение alt элемента img:

In [1]: from bs4 import BeautifulSoup

In [2]: data = """<div class="commentthread_comment_text">I <img src="image.png" alt="love"> Python</div>"""

In [3]: soup = BeautifulSoup(data, "html.parser")

In [4]: div = soup.find('div', {'class': 'commentthread_comment_text'})

In [5]: for img in div('img'):
    ...:     img.replace_with(img['alt'])
    ...:     

In [6]: div.get_text()
Out[6]: 'I love Python'
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...