Автоматический вход в Google Web Crawler - PullRequest
3 голосов
/ 17 сентября 2009

Я хотел бы автоматически определять Google и другие сканеры и регистрировать их на моем веб-сайте ASP.NET. Кто-нибудь нашел надежный способ сделать это? Часть входа в систему проста, однако ее надежное обнаружение является реальной проблемой.

Привет.

Ответы [ 4 ]

6 голосов
/ 17 сентября 2009

Это кажется очень плохой идеей по нескольким причинам, не в последнюю очередь из-за того, что Google будет кэшировать копии ваших страниц, так что даже если я не аутентифицируюсь на вашем сайте, я смогу увидеть содержимое веб-страницы и другие документы, предоставляемые из-за защищенной части вашего веб-сайта.

Что касается обнаружения веб-сканеров, я бы не стал доверять ни одному пользовательскому агенту. Возможно, вы могли бы составить список IP-адресов, с которых происходят сканеры, но как только Google добавит еще один IP-адрес, вы откажетесь от доступа этого сканера.

Выполнение обратного просмотра DNS для каждого запроса, чтобы убедиться, что домен посетителя равен googlebot.com, как предложено на Проверка Googlebot может быть большим ударом по производительности, если ваш сайт занят.

2 голосов
/ 17 сентября 2009

Посмотрите на агента пользователя. Это должен быть гуглбот. Более надежным способом является обратный поиск IP-адреса. Он скажет вам, если это бот Google или нет. Я бы использовал оба метода. НО ПРИМЕЧАНИЕ: вы замедлите свой сайт, так как будете выполнять обратный поиск для каждого посетителя.

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=80553

1 голос
/ 07 февраля 2010

Вам не нужно выполнять обратный поиск по каждому запросу. Кэшируйте результаты обратного поиска. Я только что просмотрел свои логи и вижу, что Googlebot работает с одного и того же IP-адреса. Такое поведение не гарантируется, но в любом случае кэширование должно быть разумной стратегией.

0 голосов
/ 07 февраля 2010

Вы можете легко направлять Google на индексирование, но не кэшировать страницы своего сайта, используя метатег noarchive. Таким образом, вы получаете преимущества поиска без показа вашего контента.

См. Эту страницу в Google Webmaster Central для получения дополнительной информации

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156412

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...