Веб-бот, просматривающий ваш сайт и использующий ресурсы.
Ботов много и для многих целей, начиная от самодельных, университетских исследований, скрэпперов, новых стартапов и заканчивая поисковыми системами (и, возможно, многими другими категориями)
Помимо крупных поисковых систем, которые потенциально могут отправлять трафик на сайт, почему веб-мастера разрешают другим ботам, цель которых они не знают сразу?
Каковы стимулы для веб-мастеров, чтобы позволить этим ботам?
2-й вопрос:
Если распределенный искатель с несколькими узлами-обходчиками в Интернете использует разные строки User-Agent для каждого агента, поскольку, если все они используют один и тот же UA, преимущества масштабирования с использованием нескольких агентов значительно уменьшаются.
Поскольку для больших веб-сайтов с высокой задержкой сканирования может потребоваться несколько недель или месяцев для полного сканирования.
3-ий вопрос:
Поскольку robots.txt (единственный определенный метод управления сканированием) находится на уровне домена.
Должна ли программа-обходчик иметь политику вежливости для каждого домена или IP (иногда многие веб-сайты размещаются на одном IP-адресе).
Как решить такие проблемы с интернетом? Любые другие связанные вещи, чтобы иметь в виду?