Другие рекомендовали BeautifulSoup, но гораздо лучше использовать lxml . Несмотря на название, он также предназначен для анализа и очистки HTML. Это намного, намного быстрее, чем BeautifulSoup, и он даже обрабатывает «сломанный» HTML лучше, чем BeautifulSoup (их претензия на известность). Он также имеет API совместимости для BeautifulSoup, если вы не хотите изучать lxml API.
Ян Бликинг соглашается .
Больше нет смысла использовать BeautifulSoup, если только вы не используете Google App Engine или что-то, где нет ничего, кроме Python.