Как сохранить веб-вежливость (чтобы вас не забанили) во время веб-сканирования? - PullRequest
1 голос
/ 20 декабря 2010
  • Веб-бот, просматривающий ваш сайт и использующий ресурсы.

  • Ботов много и для многих целей, начиная от самодельных, университетских исследований, скрэпперов, новых стартапов и заканчивая поисковыми системами (и, возможно, многими другими категориями)

Помимо крупных поисковых систем, которые потенциально могут отправлять трафик на сайт, почему веб-мастера разрешают другим ботам, цель которых они не знают сразу? Каковы стимулы для веб-мастеров, чтобы позволить этим ботам?

2-й вопрос:

Если распределенный искатель с несколькими узлами-обходчиками в Интернете использует разные строки User-Agent для каждого агента, поскольку, если все они используют один и тот же UA, преимущества масштабирования с использованием нескольких агентов значительно уменьшаются. Поскольку для больших веб-сайтов с высокой задержкой сканирования может потребоваться несколько недель или месяцев для полного сканирования.

3-ий вопрос: Поскольку robots.txt (единственный определенный метод управления сканированием) находится на уровне домена. Должна ли программа-обходчик иметь политику вежливости для каждого домена или IP (иногда многие веб-сайты размещаются на одном IP-адресе).

Как решить такие проблемы с интернетом? Любые другие связанные вещи, чтобы иметь в виду?

1 Ответ

2 голосов
/ 14 января 2011
  1. Есть много полезных ботов, помимо поисковых роботов, и число поисковых систем растет.В любом случае, боты, которых вы хотите заблокировать, вероятно, используют неверные строки user-agent и игнорируют ваши файлы robots.txt, так как вы собираетесь их остановить?Некоторые из них можно заблокировать на уровне IP, как только вы их обнаружите, но для других это сложно.

  2. Строка агента пользователя не имеет никакого отношения к скорости сканирования.Миллионы пользователей браузера используют одну и ту же строку агента пользователя.Веб-сайты ограничивают доступ на основе вашего IP-адреса.Если вы хотите сканировать их сайт быстрее, вам потребуется больше агентов, но на самом деле вам не следует этого делать - ваш сканер должен быть вежливым и должен медленно сканировать каждый отдельный сайт, в то же время делая успехи на многих других сайтах.

  3. Сканер должен быть вежливым для каждого домена.Один IP может обслуживать много разных серверов, но это не проблема для маршрутизатора, который передает пакеты туда-сюда.Каждый отдельный сервер, скорее всего, ограничит вашу способность поддерживать несколько соединений и сколько пропускной способности вы можете использовать.Существует также сценарий с одним веб-сайтом, обслуживаемым многими IP-адресами (например, DNS с циклическим перебором или что-то более умное): иногда пропускная способность и ограничения соединения на таких сайтах будут происходить на уровне маршрутизатора, поэтому еще развежливый за домен.

...