Я использовал отличную библиотеку bleach для удаления плохого HTML.
У меня есть множество документов HTML, которые были вставлены из Microsoft Word и содержат вещикак:
<STYLE> st1:*{behavior:url(#ieooui) } </STYLE>
Использование отбеливателя (с явным запретом тега style
) оставляет меня с:
st1:*{behavior:url(#ieooui) }
Что не помогает.У Bleach есть только опции:
- Методы Escape;
- Удалить теги (но не их содержимое).
Я ищутретий вариант - удалить теги и их содержимое.
Есть ли способ использовать bleach или html5lib для полного удаления тега style
и его содержимого?Документация для html5lib не очень помогает.