tree = lxml.html.document_fromstring(htmltext)
for element in tree.iter():
if element.tag == 'h1':
for subelement in element:
// do stuff
Это найдет элементы, которые являются тегами h1, а затем вы можете перебрать все его подэлементы.Вы также можете просто взять весь текст внутри элемента в виде строки и так же с этим справиться.Все, что вы хотите сделать.http://lxml.de/ lxml - это круто, и я бы порекомендовал его.Мне приходилось обновлять код, уже использующий его, и просто оставлял сайт открытым для справки всякий раз, когда у меня возникал вопрос:)