Парсинг результатов поиска Google - PullRequest
1 голос
/ 30 марта 2011

Я «работаю» над проектом по извлечению данных и решил проанализировать результаты поиска Google.Теперь, прежде чем я действительно начну, я хочу проконсультироваться с вами - опытными людьми.Я провел небольшое исследование о том, как Google предоставляет результаты, и проанализировал структуру страницы результатов.Все в порядке, я уже понял, какие регулярные выражения и структуры данных я буду использовать.

Между ними я обнаружил их CAPTCHA , потому что я искал слишком быстро;о, ирония.Я также обнаружил, что они ограничивают результаты до 1000 на самом деле.Теперь, есть ли какой-нибудь способ, которым я мог бы избежать этих перипетий, возможно, замедляя скорость url выборки, чтобы решить первую или сообщая при обнаружении CAPTCHA , чтобы она ждала моего ввода;это может сделать это, но как насчет другого?Предоставляет ли Google какой-то API, который я могу использовать для обхода проблемы?Я не смог найти ни одного в их коде. * Page.

Ответы [ 2 ]

9 голосов
/ 30 марта 2011

Существует API пользовательского поиска .

Возвращает результаты в формате json или XML, поэтому вам даже не нужно использовать регулярные выражения. Однако вам нужно платить за более чем 100 поисков в день.

Что именно вы пытаетесь сделать? Может быть, есть лучший способ сделать это.

4 голосов
/ 30 марта 2011

Всегда сначала смотрите на CPAN!

https://metacpan.org/pod/REST::Google

Если кто-то еще не решил вашу проблему, скорее всего, это странно: -)

...