l xml парсер, удаляющий <img>закрывающий тег при разборе html - PullRequest
0 голосов
/ 06 февраля 2020

У меня есть содержимое HTML ниже:

<html>

<body>
    <div>
        <p><img class="img.jpg" /></p>
    </div>
</body>

</html>

, и я пытаюсь выполнить синтаксический анализ HTML с использованием синтаксического анализатора lxml, как показано ниже:

import lxml.html as LH
root = LH.fromstring(html)
for el in root.iter('img'):
    el.attrib['src'] = el.attrib['class']
content = '<html><body>' + LH.tostring(root) + '</body></html>'

Я получение содержимого после разбора, как показано ниже:

<html>

<body>
    <div>
        <p><img class="img.jpg" src="img.jpg"></p>
    </div>
</body>

</html>

Как видите, закрывающий тег <img> </> был удален после разбора. Могу ли я сохранить все закрывающие теги HTML после анализа HTML?

...