Преобразовать в строку без метки ребенка Красивый суп - PullRequest
0 голосов
/ 08 сентября 2018

Я пытаюсь удалить некоторые HTML-документы, используя BeautifulSoup4, но я застрял, пытаясь удалить этот div:

<div class="small-info" style="margin-top: 4px;">
                5
                 <sup>th</sup>  
                August 2018
</div>

Я пытаюсь получить "5 августа 2018", как я могу это сделать?

1 Ответ

0 голосов
/ 08 сентября 2018

Вы должны использовать get_text() и удалить лишние пробелы

html="<div class='small-info' style='margin-top: 4px;''>5<sup>th</sup>August 2018</div>"
soup=BeautifulSoup(html,"lxml")
div=soup.find("div",{"class","small-info"})
text=div.get_text().replace("  ","")

#text : 5 th August 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...