Какие HTTP-подписи встречаются у роботов Google для сканирования веб-страниц? - PullRequest
2 голосов
/ 29 мая 2009



Имея все доступные данные HTTP,

Какие «признаки» вы можете найти для распознавания роботов поисковой системы Google?

Ответы [ 4 ]

3 голосов
/ 29 мая 2009

Как проверить googlebot - официальный метод.

1 голос
/ 29 мая 2009

Заголовка User-Agent должно быть достаточно для обнаружения бота Google

Посетите user-agents.org веб-сайт, чтобы получить список известных себе бот

Если вы хотите быть уверенным, что это настоящий робот Google от Google, тогда вы можете проверить ip / host, который всегда

с [пп] .googlebot.com

Где [nn] - число.

1 голос
/ 29 мая 2009

Насколько мне известно, сканеры Google установили в user-agent значение "Googlebot".

Другие поставщики поисковых систем обычно придерживаются узнаваемого имени в пользовательском агенте; Существуют различные списки известных агентов, например, список http://www.jafsoft.com/searchengines/webbots.html.

0 голосов
/ 26 января 2013

Ну, я не совсем уверен, насколько ремонтопригодно выполнять обратный поиск DNS для IP-адресов. Я бы сделал это только в том случае, если вы обеспокоены тем, что кто-то подделывает строки пользовательского агента Google, что маловероятно. Он также может быть подделан сам, как указано в статье.

Лучше всего сопоставить их с известными пользовательскими агентами:

Regex.IsMatch(ua, @"googlebot|mediapartners-google|adsbot-google", RegexOptions.IgnoreCase);
...