Вы не говорите, что хотите делать с извлеченным текстом, и это делает большую разницу в том, сколько усилий вы готовы потратить, чтобы получить
Если вы пытаетесь получить основной текст веб-страницы за вычетом всех несоответствий сайта (задача нетривиальная ), примитепосмотрите на котельную трубу .Он написан на Java, но он делает удивительно хорошую работу по извлечению необходимого текста из случайных веб-страниц.
Одним из моих увлечений в течение следующих нескольких недель является воссоздание основной логики боевой трубы в Python.Нам нужна функциональность, которую он обеспечивает для проекта, но мы не хотим тащить 10-тонную скалу, которая является JVM.Я почти уверен, что мы выпустим его, как только он станет достаточно стабильным.