Используйте urllib2, чтобы получить страницу, затем используйте красивый суп, чтобы получить список ссылок, также попробуйте scraperwiki.com
Редактировать:
Недавнее открытие: Использование BeautifulSoup через lxml с
from lxml.html.soupparser import fromstring
намного лучше, чем просто BeautifulSoup.Это позволяет вам делать dom.cssselect («ваш селектор»), который спасает жизнь.Просто убедитесь, что у вас установлена хорошая версия BeautifulSoup.3.2.1 работает лакомство.
dom = fromstring('<html... ...')
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')]