Я пытаюсь извлечь текст из HTML-тегов с помощью регулярных выражений.Я могу извлечь текст из отдельных тегов, но хочу извлечь непрерывный текст, если теги присутствуют один за другим.
Пример (не непрерывный текст):
sample_text = "<b><em>Excellent</em></b> work done by <b><em>Sam</em></b>"
re.findall("(?<=<b>)(.*?)(?=</b>)",sample_text)
>> [<em>Excellent</em>, <em>Sam</em>]
Пример (непрерывный текст)
sample_text = "<b><em>Excellent</em></b> work done by <b><em>Sam</em></b><b><em>Miller</em></b>"
re.findall("(?<=<b>)(.*?)(?=</b>)",sample_text)
Вот что я получаю:
>> [<em>Excellent</em>, <em>Sam</em> ,<em>Miller</em>]
Это мой ожидаемый результат:
>> [<em>Excellent</em>, <em>Sam Miller</em>]
Спасибо.