Невозможно извлечь найти / извлечь все теги из HTML-файла, используя Python - PullRequest
0 голосов
/ 02 июля 2019

Я пытаюсь идентифицировать каждый тег HTML. У меня есть регулярное выражение , которое идентифицирует тег . Но я не могу извлечь или идентифицировать эти теги.

Я знаю, что Beautiful Soup можно использовать для извлечения данных HTML, но я хочу использовать эти теги HTML в стеке для выполнения других операций.

Вот что я пробовал -

import re
the_data = '''
<div class="container-fluid">
<div class="row">
<div class="col">
<p>Some text updates here.</p>
</div>
</div>
</div>
'''
reg_exp_match = '''<((?=!\-\-)!\-\-[\s\S]*\-\-|((?=\?)\?[\s\S]*\?|((?=\/)\/[^.\-\d][^\/\]'"[!#$%&()*+,;<=>?@^`{|}~ ]*|[^.\-\d][^\/\]'"[!#$%&()*+,;<=>?@^`{|}~ ]*(?:\s[^.\-\d][^\/\]'"[!#$%&()*+,;<=>?@^`{|}~ ]*(?:=(?:"[^"]*"|'[^']*'|[^'"<\s]*))?)*)\s?\/?))> '''
pattern = re.compile(reg_exp_match)

x = re.findall(pattern, the_data)
print(x)

Я не могу извлечь теги с помощью этого регулярного выражения. Любая помощь будет высоко ценится.

1 Ответ

0 голосов
/ 02 июля 2019

Мне не нужно использовать такое сложное регулярное выражение. Это регулярное выражение <[^/>][^>]*> помогает идентифицировать все теги.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...