Удалить тег внутри другого тега - PullRequest
0 голосов
/ 09 мая 2018

Как я могу извлечь текст внутри тега, как это:

<div><blockquote type="cite" class=""><p>Find me<\p>
<blockquote cite="mid:609415CB-0979-47C1-9A75-CE1BE65939A0@wiwacom.fr" type="cite" class=""><p>Not me<\p>
      <blockquote type="cite" class=""><p>Not me too<\p>
      </blockquote>
</blockquote>

И я хочу получить:

Find me

С питоном и красивой парой

1 Ответ

0 голосов
/ 09 мая 2018

Вы можете использовать .find, чтобы получить необходимый текст.

Демо:

from bs4 import BeautifulSoup
s = """<div><blockquote type="cite" class=""><p>Find me</p>
<blockquote cite="mid:609415CB-0979-47C1-9A75-CE1BE65939A0@wiwacom.fr" type="cite" class=""><p>Not me<\p>
      <blockquote type="cite" class=""><p>Not me too<\p>
      </blockquote>
</blockquote></div>"""
soup = BeautifulSoup(s, "html.parser")
print(soup.find("div").find("p").text)

Выход:

Find me

Примечание. У вас есть недопустимые теги p <\p> ==> </p>

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...