У меня есть некоторый необработанный HTML-код со случайного веб-сайта, возможно, грязный, с некоторыми скриптами, самозакрывающимися тегами и т. Д. Пример:
ex="<!DOCTYPE html PUBLIC \\\n><html lang=\\'en-US\\'><head><meta http-equiv=\\'Content-Type\\'/><title>Some text</title></head><body><h1>Some other text</h1><p><span style='color:red'>My</span> first paragraph.</p></body></html>"
Я хочу вернуть HTML DOM без какой-либо строки,атрибуты или тому подобное, только структура тегов, в формате строки, показывающей отношения между родителями, детьми и братьями и сестрами, это будет мой ожидаемый результат (хотя использование скобок - это личный выбор):
'[html[head[meta, title], body[h1, p[span]]]]'
До сих пор я пытался использовать beautifulSoup (этот ответ был полезен).Я понял, что должен разделить работу на два шага: - извлечь тег «скелет» HTML-модели DOM, очистив все, как строки, атрибуты и прочее, до <html>
.- вернуть плоский HTML DOM, но структурированный с древовидными разделителями, указывающими каждого потомка и братьев и сестер, таких как скобки.Я отправил код в качестве самостоятельного ответа