Замедлить паутинку сайта - PullRequest
6 голосов
/ 30 января 2010

Есть ли способ заставить паука замедлить его паутинку на сайте? Что-нибудь, что может быть помещено в заголовки или robots.txt?

Я думал, что вспомнил, что читал что-то о том, что это возможно, но сейчас ничего не могу найти.

Ответы [ 4 ]

16 голосов
/ 30 января 2010

Если вы ссылаетесь на Google, вы можете снизить скорость, с которой Google размещает ваш сайт, используя свою учетную запись Google Webmaster ( Инструменты для веб-мастеров Google ).

Существует также это, которое вы можете поместить в robots.txt

User-agent: *
Crawl-delay: 10

Где задержка сканирования указывается как количество секунд между каждым сканированием страницы. Конечно, как и все остальное в robots.txt, сканер должен это учитывать, поэтому YMMV.

5 голосов
/ 30 января 2010

Помимо использования инструментов Google для веб-мастеров для робота Google (см. Ответ Роберта Харви ), Yahoo! и Bing поддерживают нестандартную директиву Crawl-delay в robots.txt:

http://en.wikipedia.org/wiki/Robots.txt#Nonstandard_extensions

Однако, когда наступает пуш, пагубному боту, который захламляет ваш сайт, просто придется заблокировать его на более высоком уровне (например, балансировщик нагрузки, маршрутизатор, кеширующий прокси-сервер, все, что подходит для вашей архитектуры).

2 голосов
/ 30 января 2010

См. Регулирование вашего веб-сервера для решения с использованием Perl. Рэндал Шварц сказал, что он пережил атаку Slashdot, используя это решение.

0 голосов
/ 30 января 2010

Я не думаю, что роботы будут делать что-либо, кроме как разрешать или запрещать.Большинство поисковых систем позволят вам настроить индексирование вашего сайта.

Например: Bing и Google

Если у васконкретный агент, вызывающий проблемы, вы можете либо заблокировать его, либо посмотреть, можете ли вы его настроить.

...