Извлечение непрерывного текста из тегов HTML с помощью регулярных выражений - PullRequest
0 голосов
/ 15 ноября 2018

Я пытаюсь извлечь текст из HTML-тегов с помощью регулярных выражений.Я могу извлечь текст из отдельных тегов, но хочу извлечь непрерывный текст, если теги присутствуют один за другим.

Пример (не непрерывный текст):

sample_text = "<b><em>Excellent</em></b> work done by <b><em>Sam</em></b>"
re.findall("(?<=<b>)(.*?)(?=</b>)",sample_text)
>> [<em>Excellent</em>, <em>Sam</em>]

Пример (непрерывный текст)

sample_text = "<b><em>Excellent</em></b> work done by <b><em>Sam</em></b><b><em>Miller</em></b>"
re.findall("(?<=<b>)(.*?)(?=</b>)",sample_text)

Вот что я получаю:

>> [<em>Excellent</em>, <em>Sam</em> ,<em>Miller</em>]

Это мой ожидаемый результат:

>> [<em>Excellent</em>, <em>Sam Miller</em>]

Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...