Я пытаюсь получить элемент и имя класса для всех элементов в файле html, используя python. Мне удалось получить все имена классов с кодом ниже. Это написано так, потому что я буду go просматривать множество файлов html, сохраняя элементы с именами классов. Игнорирование элементов без имени класса.
temp_file = open(root + "/" + file, "r", encoding="utf-8-sig", errors="ignore")
temp_content = temp_file.read()
class_names = re.findall("class=\"(.*?)\"", temp_content)
Однако сейчас я пытаюсь найти способ получить элемент, к которому принадлежит класс. Имейте в виду, что элементы иногда перекрываются друг с другом, поэтому readlines () тоже не сильно поможет, и, вероятно, будет медленнее, чем регулярное выражение всего документа.
<div class="header_container container_12">
<div class="grid_5">
<h1><a href="#">Logo Text Here</a></h1>
</div>
<div class="grid_7">
<div class="menu_items">
<a href="#" class="home active">Home</a><a href="#" class="portfolio">Portfolio</a>
<a href="#"
class="about">About Me
</a><a href="#" class="contact">Contact Me</a>
</div>
</div>
</div>
Выше html фрагмент кода специально написан с отступом, чтобы продемонстрировать тип данных, с которыми я работаю ... Цель состоит в том, чтобы сохранить их в хэш-карте. т.е.
"header_Container container_12": "div"
"grid_5": "div"
"grid_7": "div"
"menu_items": "div"
"home active": "a"
"portfolio": "a"
"about": "a"
"contact": "a"