Вы можете перебрать все элементы, содержащие текст, следующим образом:
<code>from bs4 import BeautifulSoup
html = """
<b><i>Data</i>Data Summary</b><br/>
Data Description<br/>
<br/>
<pre>Data paragraph which contains huge string<br/>
Данные 2 Сводка данных 2 Описание данных 2
Data 2 paragraph which contains huge string<br/>
"" "soup = BeautifulSoup (html," html.parser ") text_items = [t.strip () для t в soup.find_all (text = True), если len (t.strip ())] print (text_items)
Это также удаляет любые пробелы и сохраняет только те элементы, которые приводят к непустым строкам. Это будет отображать следующий список:
['Data', 'Data Summary', 'Data Description', 'Data paragraph which contains huge string', 'Data 2', 'Data 2 Summary', 'Data 2 Description', 'Data 2 paragraph which contains huge string']