Согласно Google, вам не разрешено ломать их сайт.
Их robot.txt находится здесь: http://www.google.com/robots.txt.
Тем не менее, это немного лицемерно исходит от компании, чья целая бизнес-модель заключается в очистке сайтов других людей.
Считай себя предупрежденным.
Регулярное выражение простое:
<a [^<]*class=l.*?</a>
Теперь, для людей, которые утверждают, что HTML не может быть проанализирован с помощью регулярных выражений ... да, вы правы, вы не можете анализировать html в регулярных выражениях. Но давайте не будем смешить здесь.
Извлечение определенного блока текста из HTML-страницы в известном формате определенно возможно (и легко) сделать в регулярном выражении. Вот для чего нужно регулярное выражение.
Это не «синтаксический анализ HTML», и в таком случае, как этот, где формат известен, а приложение некритично, regex прекрасно работает.
Я только что проверил, и есть API от Google, который позволяет вам сделать до 100 запросов бесплатно в пользовательской поисковой системе.
http://www.google.com/cse/
https://code.google.com/apis/console/?api=customsearch&pli=1#welcome
Требуется учетная запись Google и ключ API, которые вы можете получить по ссылкам выше.
Внимание, пробираться через легального будет гораздо сложнее, чем писать свой скребок