Страница, на которую я смотрю, содержит:
<div id='1'> <p> text 1 <h1> text 2 </h1> text 3 <p> text 4 </p> </p> </div>
Я хочу получить весь текст в div, кроме текста, который находится в <h>
.
(Я хочу получить «текст 1», «текст 3» и «текст 4»)
Может быть несколько <h>
элементов или их вообще нет.
И может быть несколько <p>
элементов, даже один внутри другого, или их нет.
Я подумал сделать это, получив весь HTML-источник div и используя регулярное выражение для удаления элементов <h>
. Но selenium.get_text не возвращает HTML, только текст (все это!).
Я знаю, что могу использовать selenium.get_html_source
, а затем искать нужный мне элемент с помощью регулярного выражения, но это выглядит как пустая трата, поскольку селен знает, как найти элемент.
У кого-нибудь есть лучшее решение?
Спасибо:)