Я пытаюсь извлечь каждый тег HTML, включая совпадение с регулярным выражением.Например, предположим, что я хочу получить каждый тег, включая строку «имя», и у меня есть HTML-документ, подобный этому:
<html>
<head>
<title>This tag includes 'name', so it should be retrieved</title>
</head>
<body>
<h1 class="name">This is also a tag to be retrieved</h1>
<h2>Generic h2 tag</h2>
</body>
</html>
Возможно, мне следует попробовать регулярное выражение, чтобы перехватить каждое совпадение между открытием и закрытием"<>"
, однако, я хотел бы иметь возможность просматривать проанализированное дерево на основе этих совпадений, чтобы я мог получить братьев и сестер или родителей или 'nextElements'.В приведенном выше примере это равняется <head>*</head>
или, возможно, <h2>*</h2>
, как только я узнаю, что они являются родителями или братьями и сестрами тега, содержащего совпадение.
Я попробовал BeautifulSoap, но мне кажется, что это полезно, когда вы уже знаете, какой тег вы ищете или на основе его содержимого.В этом случае я хочу сначала найти совпадение, взять его в качестве отправной точки, а затем перемещаться по дереву, как это умеют BeautifulSoap и другие анализаторы HTML.
Предложения?