Как проверить GoogleBot - PullRequest
       7

Как проверить GoogleBot

1 голос
/ 22 декабря 2011

Я хочу запретить сбор данных на моем сайте (кроме googlebot, конечно). Я полагаю, что полагаться на UserAgent ГБ недостаточно сильно (каждый бот может его подделать)

Как я все еще могу аутентифицировать GoogleBot, чтобы избежать подделок.

Ответы [ 4 ]

2 голосов
/ 22 декабря 2011

Официальным способом является использование комбинации прямого и обратного поиска DNS;они не могут подделать это!

Более подробную информацию можно получить здесь из блога Google для веб-мастеров: Как проверить Googlebot

Указание веб-мастерам использовать DNS для проверки нав каждом конкретном случае кажется, что лучший путь.Я думаю, что рекомендуемый метод - сделать обратный поиск DNS, убедиться, что имя находится в домене googlebot.com, а затем выполнить соответствующий прямой поиск DNS-> IP, используя это имя googlebot.com;Например:

> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Я не думаю, что достаточно просто выполнить обратный поиск DNS, потому что спуфер может настроить обратный DNS для указания на crawl-a-b-c-d.googlebot.com.

ОднакоЯ рекомендую кэшировать результаты этого поиска для каждого IP-адреса и выполнять его только периодически, чтобы не вносить слишком много накладных расходов в процесс проверки.

1 голос
/ 14 октября 2013

Google-бот использует следующие диапазоны -

203.208.60.0 / 24, 66.249.64.0/20, 2001: 4860: 4801: 2: 600: 6006: 1300: b075, 2001: 4860: 4801: 5: 1000: 6006: 1300: b075, 2001: 4860: 4801: 6: e300: 6006: 1300: b075, 2001: 4860: 4801: 2001 :: 6006: 1300: b075, 2001: 4860:4801: 2002 :: 6006: 1300: b075

IP-адреса Bing Bot -

65.52.104.0 / 24, 65.52.108.0/22, 65.55.24.0/24, 65.55.52.0/24, 65.55.55.0/24, 65.55.213.0/24, 131.253.24.0/22, 131.253.46.0/23, 157.55.16.0/23, 157.55.18.0/24, 157.55.32.0/22, 157.55.36.0 / 24, 157.55.48.0/24, 157.55.109.0/24, 157.55.110.40/29, 157.55.110.48/28, 157.56.92.0/24, 157.56.93.0/24, 157.56.94.0/23, 157.56.229.0/ 24, 199.30.16.0/24, 207.46.12.0/23, 207.46.192.0/24, 207.46.195.0/24, 207.46.199.0/24, 207.46.204.0/24

Используйте ссылку ниже для получения дополнительной информации-

http://myip.ms/info/bots/Google_Bing_Yahoo_Facebook_etc_Bot_IP_Addresses.html

.

1 голос
/ 22 декабря 2011

В официальном блоге Google для веб-мастеров есть пост , в котором объясняется «официальный способ аутентификации робота Googlebot».

Указание веб-мастерам использовать DNS для проверки на случайКазуальная основа кажется лучшим путем.Я думаю, что рекомендуемый метод - сделать обратный поиск DNS, убедиться, что имя находится в домене googlebot.com, а затем выполнить соответствующий прямой поиск DNS-> IP, используя это имя googlebot.com;Например:

> host 66.249.66.11.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.comcrawl-66-249-66-1.googlebot.com has address 66.249.66.1

Я не думаю, что достаточно просто выполнить обратный поиск DNS, потому что спуфер может настроить обратный DNS для указания на crawl-a-b-c-d.googlebot.com.

0 голосов
/ 22 июля 2012

Наша компания (Incapsula) недавно провела исследование активности робота Googlebot, которое показало в среднем 21% попыток показа робота Googlebot.(75% из них были непосредственно вредными)

http://www.incapsula.com/the-incapsula-blog/item/369-was-that-really-a-google-bot-crawling-my-site

Сказав, что уязвимость продолжает существовать только из-за небрежности, так как вышеупомянутый метод проверки на 100% полностью защищен.

...