Простейшее, вероятно, BeautifulSoup (обязательно используйте версию 3.0.8 или выше 3.0.*
, не 3.1.*
, если только вы не на Python 3 - см. здесь !).
import BeautifulSoup
soup = BeautifulSoup.BeautifulSoup(thehtmlstring)
for anchor in soup.findAll('a'):
print anchor['href'], anchor.string
BeautifulSoup создает строки в юникоде - если это проблема, обязательно закодируйте их, если хотите, чтобы строки байтов были такими, как вы хотите!