Извлечь nth теги из HTML после указания тега c с BeautifulSoup - PullRequest
0 голосов
/ 11 февраля 2020

Используя Beautifulsoup, у меня есть HTML var, как это:

<head>....<\head>
<body>
<h2> my title <\h2>
<p> text text text <\p>
<p> text2 text2 <\p>

<h2> my title 2<\h2>
<p> text text text <\p>

Я хочу извлечь каждый и следующие

теги.

Пример, который я хотел бы получить:

First = "my title <\ h2>

text text text <\ p>

text2 text2 <\ p>"

Second = "my title <\ h2>

text text text <\ p>"

Зная, что в каждом документе количество тегов и

варьируется.

Кто-нибудь может предложить подход или способ решения этой проблемы?

1 Ответ

0 голосов
/ 11 февраля 2020

Как на счет этого

let page =

<head>....<\head>
<body>
<h2> my title <\h2>
<p> text text text <\p>
<p> text2 text2 <\p>

<h2> my title <\h2>
<p> text text text <\p>

и

parser = '<h2> my title <\h2>'
a = parser + page.split(parser)
b = parser + page.split(parser)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...