Что касается разбора html, самый быстрый / простой способ, который вы, вероятно, получите, это использование lxml
Что касается самих запросов http: httplib2 очень прост в использовании и, возможно, может ускорить загрузку, поскольку он поддерживает соединения поддержки активности HTTP 1.1 и сжатие gzip. Существует также pycURL , который утверждает, что он очень быстрый (но более сложный в использовании) и построен на curllib, но я никогда не использовал его.
Вы также можете попытаться одновременно загружать разные файлы, но также помните, что слишком быстрая попытка оптимизировать время загрузки может быть не слишком вежливой по отношению к рассматриваемому веб-сайту.
Извините за отсутствие гиперссылок, но SO говорит мне: "Извините, новые пользователи могут публиковать не более одной гиперссылки"