Я пытаюсь идентифицировать каждый тег HTML.
У меня есть регулярное выражение , которое идентифицирует тег .
Но я не могу извлечь или идентифицировать эти теги.
Я знаю, что Beautiful Soup можно использовать для извлечения данных HTML, но я хочу использовать эти теги HTML в стеке для выполнения других операций.
Вот что я пробовал -
import re
the_data = '''
<div class="container-fluid">
<div class="row">
<div class="col">
<p>Some text updates here.</p>
</div>
</div>
</div>
'''
reg_exp_match = '''<((?=!\-\-)!\-\-[\s\S]*\-\-|((?=\?)\?[\s\S]*\?|((?=\/)\/[^.\-\d][^\/\]'"[!#$%&()*+,;<=>?@^`{|}~ ]*|[^.\-\d][^\/\]'"[!#$%&()*+,;<=>?@^`{|}~ ]*(?:\s[^.\-\d][^\/\]'"[!#$%&()*+,;<=>?@^`{|}~ ]*(?:=(?:"[^"]*"|'[^']*'|[^'"<\s]*))?)*)\s?\/?))> '''
pattern = re.compile(reg_exp_match)
x = re.findall(pattern, the_data)
print(x)
Я не могу извлечь теги с помощью этого регулярного выражения.
Любая помощь будет высоко ценится.