Вы можете использовать lxml для анализа веб-страницы. http://lxml.de/
Вы можете очистить веб-страницу с помощью
from lxml.html import parse
site = parse('http://java.sun.com')
Здесь возвращается дерево элементов lxml: http://lxml.de/api.html
Затем вы можете использовать xpath для получения содержимого HTML (http://www.w3schools.com/xpath/):
tableData = site.xpath('//table//td[@id="someTdID"]')
lxml - довольно мощная библиотека, которая широко используется для очистки данных. Затем вы можете передать эти данные в словари / списки Python или обработать их так, как вам нравится.