В Google есть библиотека API.Я бы порекомендовал вам использовать это: http://code.google.com/apis/ajaxsearch/
- это спокойный API, что означает, что его легко получать с помощью python / js.Думаю, вы ограничены 32 результатами, но этого должно быть достаточно.он вернет хороший структурированный объект, с которым вы сможете работать, не делая ничего при разборе html.
Если вы хотите «сканировать», вы можете использовать urllib для захвата каждого изURL-адреса и получите их содержимое, а также URL-адреса, на которые они ссылаются, и так далее.