как извлечь текст до тега <br>в красивый суп - PullRequest
0 голосов
/ 24 октября 2018

Я хочу извлечь из тега div до <br>.Как это сделать,

Например,

<div class="content-cell mdl-cell mdl-cell--6-col mdl-typography--body-1">Watched a video that has been removed<br>Aug 17, 2018, 2:34:28 PM UTC</div>

Я использовал это,

print  content.text

Это выводит,

Watched a video that has been removedAug 17, 2018, 2:34:28 PM UTC

Но ожидаетсявывод, смотрел видео, которое было удалено

Я не хочу текст после <br>

Более того, чтобы специально получить после <br> Я мог бы попробовать это,

content.find('br').text

Прямо сейчас я думаю поступить так, как показано ниже

result= (content.find('br').text).replace((content.find('br').text),'')

Есть ли какой-нибудь другой лучший способ избежать моего метода дополнительной замены строки с использованием beautifulsoup?

1 Ответ

0 голосов
/ 24 октября 2018
from bs4 import BeautifulSoup

html="""<div class="content-cell mdl-cell mdl-cell--6-col mdl-typography--body-1">Watched a video that has been removed<br>Aug 17, 2018, 2:34:28 PM UTC</div>"""
soup = BeautifulSoup(html)
print(soup.find("div").contents[0])

Вывод должен быть:

Watched a video that has been removed
...