Должен ли я заблокировать бота *? - PullRequest
0 голосов
/ 30 июля 2010

Пропускная способность на одном из наших сайтов была серьезно испорчена 28-го числа этого месяца.Cpanel только отслеживает ежедневные журналы доступа и не архивирует их (он делает это сейчас), используя aw stats. Я обнаружил, что трафик нашего бота выглядит следующим образом:

Неизвестный робот (идентифицированный как 'bot *') 91541 + 417 4.7828 июля 2010 г. - 07:12

Я заблокировал бота * с помощью htaccess:

RewriteCond% {HTTP_USER_AGENT} ^ bot * [NC]RewriteRule. * - [F, L]

Мне сообщили, что это может мешать движению, что мне делать?мне подождать, пока это произойдет снова, затем проверить журналы на наличие IP-адреса / имени агента или продолжить блокировать неизвестных роботов?

Я проверил DNS-запрос на записи googlebot, которые у меня есть, и они проверили.

1 Ответ

2 голосов
/ 30 июля 2010

Вы должны использовать Порядок исключения роботов .Это может быть не спам-бот, если вы разместите запись в файле robots.txt, и она все еще появляется на вашем сайте, вы узнаете, так ли это.

Кстати, googlebot является индексаторомдля Google.Он будет придерживаться robots.txt (порядок исключения роботов).Он также предоставляет инструментов для веб-мастеров , позволяющих вам настроить взаимодействие Google с вашим сайтом.

Вы можете заложить ловушку для заблудшего бота.Сделайте ссылку на вашей домашней странице, которая невидима (через css).Сконфигурируйте свой robots.txt, чтобы указать всем ботам игнорировать ссылку и регистрировать действующие боты.

Если у вас есть брандмауэр или другое инфраструктурное будущее, исключите эти IP-адреса из будущего использования вашего сайта.

...