Я спросил об этом год назад и получил несколько хороших ответов. Определенно Agility Pack - это то, что нужно.
В итоге мы сделали код грубого скребка, который выполнил свою работу и работал без проблем. Мы довольно легко обращались к Google (около 25 запросов в день). Мы приняли меры предосторожности при рандомизации 1) порядка и 2) времени суток и 3) времени между запросами. Я не знаю, помогло ли что-нибудь из этого, но мы никогда не сталкивались с капчей.
Сейчас мы не сильно этим занимаемся.
Его основными слабостями были / являются:
мы только удосужились проверить первую страницу (возможно, мы могли бы закодировать расширенную версию, которая смотрела бы на первые X страниц, но, возможно, это было бы более высоким риском - с точки зрения обнаружения Google).
его результаты были ненадежными и прыгали вокруг. Вы можете быть восьмым каждый день в течение нескольких недель, за исключением одного случайного дня, когда вы были третьим. Возможно ... сама идея тщательного ежедневного или еженедельного чтения и регистрации нашего рейтинга слишком ошибочна
Чтобы ответить на ваш вопрос о том, что Google нарушил ваш код: Google не вносил принципиальных изменений во все месяцы, когда мы его запускали, но они изменили что-то , что сломало «снимок», который мы сохраняли результат (возможно, изменение CSS?), который ничего не сделал для повышения достоверности результатов.