Может быть, немного поздно, но я думаю, что стоит упомянуть, что вы можете профессионально очистить Google надежно и не вызывать проблем с ним.
На самом деле это не какая-либо угроза, которую я знаю о том, чтобы поцарапать Google.
Если вы неопытны, я не знаю ни одного случая с юридическими последствиями, и я всегда следую этой теме.
Возможно, один из самых больших случаев очистки произошел несколько лет назад, когда Microsoft отказалась от Google, чтобы привести Bing в действие.Google смог доказать это, разместив фальшивые результаты, которых нет в реальном мире, и Бинг неожиданно взял их на вооружение.
Google назвал их и опозорил, вот и все, что я помню.
Использование API редко бывает реальным, его использование стоит больших денег даже для небольшого количества результатов, а бесплатная сумма довольно мала (40 просмотров в час до бана).
Другим недостатком является то, что API не отражает реальные результаты поиска, в вашем случае может быть меньше проблем, но в большинстве случаев люди хотят получить реальные позиции в рейтинге.
Теперь, если вы не принимаете Googles TOS или игнорируете его (им не было дела до вашего TOS, когда вы брали у вас при запуске), вы можете пойти другим путем.
Имитировать реального пользователя и получить данныепрямо из поисковой выдачи.
Ключом здесь является отправка около 10 запросов в час (может быть увеличено до 20) с каждого IP-адреса (да, вы используете более одного IP-адреса).За последние годы эта сумма не вызывала проблем с Google.
Используйте кэширование, базы данных, управление ротацией ip, чтобы избежать его использования чаще, чем требуется.
IP-адреса должны быть чистыми, неразделенными и, если возможно,без оскорбительной истории.
Первоначально предложенный список прокси-серверов значительно усложнит тему, поскольку вы получаете нестабильные, ненадежные IP-адреса с сомнительным злоупотреблением, совместным использованием и историей.
На http://scraping.compunect.com существует PHP-проект с открытым исходным кодом, который содержит все функции, необходимые для запуска, я использовал его для своей работы, которая теперь работает без проблем в течение нескольких лет.Это готовый проект, который в основном построен для использования в качестве настраиваемой базы вашего проекта, но также работает автономно.
Также PHP не является плохим выбором, я изначально был настроен скептически, но в течение двух лет я запускал PHP (5) в качестве фонового процесса без единого перерыва.
Производительность легко достаточно хороша для такого проектапоэтому я бы попробовал.
В противном случае PHP-код похож на C / JAVA .. вы можете увидеть, как все делается, и повторить их в своем собственном проекте.