Я анализирую RSS-контент, используя универсальный анализатор каналов. В описании тега несколько раз
Я получаю Velues, как показано ниже:
<!--This is the XML comment -->
<p>This is a Test Paragraph</p></br>
<b>Sample Bold</b>
<m:Table>Sampe Text</m:Table>
Порядок удаления элементов / тегов HTML. Я использую следующее регулярное выражение.
pattern = re.compile(u'<\/?\w+\s*[^>]*?\/?>', re.DOTALL | re.MULTILINE | re.IGNORECASE | re.UNICODE)
desc = pattern.sub(u" ", desc)
Это помогает удалить теги HTML, но не комментарии xml. Как удалить как elemnts, так и XML-комментарии?