Как удалить определенные атрибуты, такие как идентификатор, стиль, класс и т. Д., Из кода HTML?
Я думал, что смогу использовать модуль lxml.html.clean , но, как оказалось, я могу удалить только атрибуты стиля с Clean(style=True).clean_html(code)
. Я бы предпочел не использовать регулярные выражения для этой задачи (атрибуты могут измениться).
Что бы я хотел иметь:
from lxml.html.clean import Cleaner
code = '<tr id="ctl00_Content_AdManagementPreview_DetailView_divNova" class="Extended" style="display: none;">'
cleaner = Cleaner(style=True, id=True, class=True)
cleaned = cleaner.clean_html(code)
print cleaned
'<tr>'
Заранее спасибо!