Я пытаюсь получить разные заголовки из нескольких тегов h
из некоторых HTML-элементов.К тегам h
всегда прикреплены некоторые цифры, например, h1
, h14
, h17
.Я знаю, что могу использовать .select("h1,h11,h9")
для их извлечения, но их много.Я мог бы обработать их, используя .select("[class^='heading']")
, если бы они были что-то вроде class="heading1"
, class="heading2"
, class="heading3"
.
Как получить все содержимое различных тегов h
с помощью селектора?
Моя попытка:
htmlelements="""
<h1>
<a href="https://somesite.com/">SEC fight</a>
</h1>
<h11>
<a href="https://somesite.com/">AFC fight</a>
</h11>
<h9>
<a href="https://somesite.com/">UTY fight</a>
</h9>
"""
from bs4 import BeautifulSoup
page = BeautifulSoup(htmlelements, "lxml")
for item in page.select("h11"):
print(item.text)
PS регулярное выражение не вариант .find_all(string=re.compile("h"))
здесь.