Как я могу нацелить текст, когда нет следующего родного брата? - PullRequest
0 голосов
/ 06 июля 2018

Я пытаюсь очистить динамически сгенерированные страницы с помощью BeautifulSoup, иногда я получаю свободный текст, а некоторые нет.

Как я могу извлечь свободный текст ниже, я пытался использовать следующий брат, но текст не содержится ни в одном теге.

<div class="div1">

<table class="table1"></table>
<ul></ul>

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt

</div>

1 Ответ

0 голосов
/ 06 июля 2018

Что вы можете сделать, это использовать селектор CSS с , выберите div.div1 ul и сопоставьте next_sibling

html_doc = """
<div class="div1">

<table class="table1"></table>
<ul></ul>

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt

</div>
"""

from bs4 import BeautifulSoup
result_page = BeautifulSoup(html_doc, 'html.parser')

for text in result_page.select("div.div1 ul"):
    print(text.next_sibling.strip())
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...