Вы можете использовать модуль HTMLParser .
Код, вероятно, будет выглядеть примерно так:
from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
# Only parse the 'anchor' tag.
if tag == "a":
# Check the list of defined attributes.
for name, value in attrs:
# If href is defined, print it.
if name == "href":
print name, "=", value
parser = MyHTMLParser()
parser.feed(your_html_string)
Примечание: Модуль HTMLParser былпереименован в html.parser в Python 3.0.Инструмент 2to3 автоматически адаптирует импорт при конвертации ваших источников в 3.0.