Обычно я хотел бы использовать HTMLParser
для обработки (возможно, перебор?), Пример кода ниже для Python 2.7 (библиотека 3.0 переименована html.parser
)
from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
print "Found Start Tag", attrs
s = "noivos, convites de casamento <a href=\"http://www.olharcaricato.com.br\">
http://www.olharcaricato.com.br</a> more entries here"
parser = MyHTMLParser()
parser.feed(s)
Выходы: Found Start Tag [('href', 'http://www.olharcaricato.com.br')]
Примечание. Реализуйте приведенный выше код в качестве фильтра, настройте вывод в соответствии с вашими потребностями. Пример фильтра находится в Пользовательский фильтр jinja2 для итератора