Я надеюсь, что мне просто не хватает параметра и жду вашей помощи. Я хочу получить все теги из фрагмента HTML, включая закрывающие теги (я делаю некоторый анализ порядка тегов HTML для тысяч страниц для HTML и, следовательно, необходимо извлечь как открывающие, так и закрывающие теги в порядке их появления на странице).
Фрагмент моего кода на данный момент:
data = '<h1>Overview</h1> <p>Several methods can be used...</p><ol><li>hello world</li></ol><br>'
tags = []
soup = BeautifulSoup(data, "html.parser")
for tag in soup.find_all():
tags.append(tag.name)
tag_string = '-'.join(tags)
print(tags)
print(tag_string)
Текущий вывод:
['h1', 'p', 'ol', 'li', 'br']
h1-p-ol-li-br
Желаемый вывод (показать закрытие тег, чтобы я мог видеть это в правильном порядке):
['h1', '/h1', 'p', '/p', 'ol', 'li', '/li', '/ol', 'br']
h1-/h1-p-/p-ol-li-/li-/ol-br