Что мне делать, если паук поисковой системы забивает мой сайт? - PullRequest
0 голосов
/ 23 января 2009

Я управляю небольшим веб-сервером, и в последнее время его разводил паук поисковой системы. Как правильно его охладить? Должен ли я периодически отправлять 5xx ответов? Есть ли настройка robots.txt, которую я должен использовать? Или что-то еще?

Ответы [ 6 ]

6 голосов
/ 23 января 2009

Предполагая, что паук достаточно любезен, чтобы уважать robots.txt, вы можете запретить ему доступ к вашему сайту следующим образом:

User-agent: *
Disallow: /

Это повлияет на всех пауков. Сузьте его, указав правильный пользовательский агент для паука.

Если сканер не уважает ваш файл robots.txt, вы можете запретить ему доступ к вашему сайту, заблокировав его IP в брандмауэре.

РЕДАКТИРОВАТЬ: Вы можете узнать больше о robots.txt здесь .

2 голосов
/ 23 января 2009

Robots.txt должен быть вашим первым портом захода. Поисковый бот должен принять к сведению эти настройки и перестать посещать страницы, доступ к которым вам запрещен. Это легко сделать, создав файл в корне вашего сайта со следующим синтаксисом:

User-agent: *
Disallow: /

Этот синтаксис по существу говорит: все поисковые боты (подстановочный знак *), вам не разрешено индексировать что-либо в / Больше информации на robotstxt.org

Если это не сработает, следующий шаг - запретить IP-адрес, если это возможно.

1 голос
/ 24 января 2009

Если он игнорирует robots.txt, вторая лучшая вещь - это запретить его по строке useragent. Простой запрет на IP не принесет особой пользы, так как в наши дни 99% пауков распределены по нескольким серверам.

1 голос
/ 23 января 2009

вы также можете создать карту сайта и зарегистрировать карту сайта у бота-нарушителя. Поисковые системы будут использовать карту сайта, чтобы определить, какие страницы нажимать и как часто. Если ваш сайт полностью динамический, это может не сильно помочь, но если у вас много статических страниц, это хороший способ сообщить паукам, что ничего не меняется изо дня в день.

0 голосов
/ 24 января 2009

robots.txt должен быть вашим первым выбором. Однако, если бот ведет себя плохо и у вас нет контроля над брандмауэром, вы можете установить ограничение .htaccess, чтобы запретить его по IP.

0 голосов
/ 23 января 2009
User-agent: *
Disallow: /
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...