Поиск ползет "бот"? - PullRequest
       9

Поиск ползет "бот"?

0 голосов
/ 17 сентября 2010

Я работаю над проектом, который требует от меня сбора большого списка URL-адресов веб-сайтов по определенным темам. Я хотел бы написать скрипт, который будет использовать Google для поиска определенных терминов, а затем сохранить URL-адреса из результатов в файл. Как бы я поступил так? Я использовал модуль xgoogle, но он всегда не дал результатов.

Я использую Python 2.6 в Windows 7.

Ответы [ 2 ]

1 голос
/ 17 сентября 2010

В Google есть библиотека API.Я бы порекомендовал вам использовать это: http://code.google.com/apis/ajaxsearch/

- это спокойный API, что означает, что его легко получать с помощью python / js.Думаю, вы ограничены 32 результатами, но этого должно быть достаточно.он вернет хороший структурированный объект, с которым вы сможете работать, не делая ничего при разборе html.

Если вы хотите «сканировать», вы можете использовать urllib для захвата каждого изURL-адреса и получите их содержимое, а также URL-адреса, на которые они ссылаются, и так далее.

0 голосов
/ 17 сентября 2010

Убедитесь, что вы изменили User-Agent на urllib2.По умолчанию, как правило, блокируется Google.Убедитесь, что вы соблюдаете условия использования поисковой системы, которую вы пишете.

...