Извините, но в python его нет, хотя в php они есть. Тогда вы можете использовать и улучшать тот, который я сделал по имени Соскреб. Хотя он не работает на всех сайтах, это система, основанная на рецептах, которая в настоящее время работает только с NYT, WSJ и Economist. Я работаю над алгоритмом "все включено", но это серьезная задача. Он включает в себя тонну анализа различных типов HTML и XML. Даже три сайта, упомянутые выше, имеют совершенно разные алгоритмы очистки своих сайтов. WSJ - самый сложный на сегодняшний день. Они портят свой HTML с таким бесполезным дерьмом, главным образом, чтобы просто остановить вас.
Вот программа, о которой я говорил, она требует lxml, но все объясняет в readme. Он читает файлы конфигурации, анализирует частичные RSS-каналы, получает ссылки, а затем очищает эти ссылки, в конце концов формулируя XML-файл RSS 2.0. Который я в основном превращаю в электронную книгу для моего разжигания. Я использую lxml, BeautifulSoup и feedparser.
http://tinyurl.com/yh3s9pa
Вы также можете посмотреть на проект калибра, который использует метод, аналогичный тому, как я это делаю, на рецептах.