Я хочу перемещаться по тегу div с помощью Beautiful Soup для извлечения некоторых данных. HTML Структура выглядит примерно так:
<div id="important-data">
<p> Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. </p>
<p> <b> Heading Goes here </b> </p>
<p> Paragraph goes here </p>
<ul>
<li> Item 1 </li>
<li> Item 2 </li>
<li> Item 3 </li>
</ul>
<p> Lorem 2 ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. </p>
</div>
Оригинал HTML do c может содержать более 30 вложенных тегов (включая другие теги, такие как span или даже вложенные теги div) внутри div и мне нужно перемещаться по ним все
До сих пор я извлек HTML и сохранил в переменной
important_data_to_be_extracted = soup.find("div", id="important-data").prettify()
## Soup here is the HTML given above
Результат, который я ожидаю:
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.
Heading Goes here
Paragraph goes here
Item 1
Item 2
Item 3
Lorem 2 ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.
Самое главное, чтобы EOL присутствовал. Я попробовал несколько методов, используя генератор .children или методы find_all (), но они кажутся слишком наивными и неуклюжими.
Существует ли эффективный способ извлечения данных из структуры?