Лично я использую lxml, потому что это швейцарский армейский нож ...
from lxml import html
print html.parse('http://someurl.at.domain').xpath('//body')[0].text_content()
Это заставляет lxml извлечь страницу, найти тег <body>
, затем извлечь и напечатать весь текст.
Я много разбираюсь в страницах, и регулярное выражение - неправильное решение в большинстве случаев, если только это не является единовременной необходимостью. Если автор страницы изменяет свой HTML, вы рискуете нарушить свое регулярное выражение. Парсер, скорее всего, продолжит работать.
Большая проблема с анализатором заключается в том, чтобы узнать, как получить доступ к разделам документа, который вы ищете, но есть много инструментов XPATH, которые вы можете использовать внутри своего браузера, которые упрощают задачу.