Существует также небольшая библиотека под названием stripogram , которую можно использовать для удаления некоторых или всех тегов HTML.
Вы можете использовать его так:
from stripogram import html2text, html2safehtml
# Only allow <b>, <a>, <i>, <br>, and <p> tags
clean_html = html2safehtml(original_html,valid_tags=("b", "a", "i", "br", "p"))
# Don't process <img> tags, just strip them out. Use an indent of 4 spaces
# and a page that's 80 characters wide.
text = html2text(original_html,ignore_tags=("img",),indent_width=4,page_width=80)
Поэтому, если вы хотите просто удалить весь HTML, вы передаете valid_tags = () первой функции.
Документацию можно найти здесь .