Мне интересно, существуют ли какие-либо методы для идентификации веб-сканера, который собирает информацию для незаконного использования. Проще говоря, кража данных для создания копий сайта.
В идеале эта система должна обнаруживать шаблон сканирования из неизвестного источника (если его нет в списке с Google Crawler и т. Д.) И отправлять поддельную информацию сканирующему сканеру.
- Если в качестве защитника я обнаружу неизвестный сканер, который регулярно попадает на сайт, атакующий будет рандомизировать эти интервалы.
- Если в качестве защитника я обнаружу того же агента / IP-адрес, злоумышленник будет рандомизировать агента.
И вот тут я теряюсь - если злоумышленник рандомизирует интервалы и агента, как бы я не распознал прокси и машины, попавшие на сайт из той же сети?
Я думаю о проверке подозрительного агента с поддержкой javascript и cookie. Если пугающий не может делать то же самое последовательно, то это плохой парень.
Что еще я могу сделать? Существуют ли какие-либо алгоритмы или даже системы, предназначенные для быстрого оперативного анализа исторических данных?