У меня есть содержимое HTML ниже:
<html>
<body>
<div>
<p><img class="img.jpg" /></p>
</div>
</body>
</html>
, и я пытаюсь выполнить синтаксический анализ HTML с использованием синтаксического анализатора lxml
, как показано ниже:
import lxml.html as LH
root = LH.fromstring(html)
for el in root.iter('img'):
el.attrib['src'] = el.attrib['class']
content = '<html><body>' + LH.tostring(root) + '</body></html>'
Я получение содержимого после разбора, как показано ниже:
<html>
<body>
<div>
<p><img class="img.jpg" src="img.jpg"></p>
</div>
</body>
</html>
Как видите, закрывающий тег <img>
</>
был удален после разбора. Могу ли я сохранить все закрывающие теги HTML после анализа HTML?