То есть вы хотите удалить теги <a>
и <em>
? Это можно сделать так:
>>> s = '<a href="http://testsite.com" class="className">link_text_part1 <em>another_text</em> link_text_part2</a>'
>>> re.sub("</?(a|em).*?>", "", s)
'link_text_part1 another_text link_text_part2'
В английском это ищет:
- A <символ </li>
- (необязательно, после) / (чтобы получить закрывающие теги)
- , за которыми следуют 'a' или 'em'
- с последующим указанием чего-либо, вплоть до первого> символа
и заменяет их пустыми строками.
Однако, как говорит Кос, использование регулярных выражений для анализа HTML очень рискованно и хрупко, если только вы не знаете, что формат разбираемого HTML никогда не изменится.