Выявление враждебных веб-сканеров - PullRequest
4 голосов
/ 30 мая 2009

Мне интересно, существуют ли какие-либо методы для идентификации веб-сканера, который собирает информацию для незаконного использования. Проще говоря, кража данных для создания копий сайта.

В идеале эта система должна обнаруживать шаблон сканирования из неизвестного источника (если его нет в списке с Google Crawler и т. Д.) И отправлять поддельную информацию сканирующему сканеру.

  • Если в качестве защитника я обнаружу неизвестный сканер, который регулярно попадает на сайт, атакующий будет рандомизировать эти интервалы.
  • Если в качестве защитника я обнаружу того же агента / IP-адрес, злоумышленник будет рандомизировать агента.

И вот тут я теряюсь - если злоумышленник рандомизирует интервалы и агента, как бы я не распознал прокси и машины, попавшие на сайт из той же сети?

Я думаю о проверке подозрительного агента с поддержкой javascript и cookie. Если пугающий не может делать то же самое последовательно, то это плохой парень.

Что еще я могу сделать? Существуют ли какие-либо алгоритмы или даже системы, предназначенные для быстрого оперативного анализа исторических данных?

Ответы [ 3 ]

9 голосов
/ 30 мая 2009

Мое решение было бы сделать ловушку. Разместите на своем сайте несколько страниц, доступ к которым запрещен robots.txt. Сделайте ссылку на своей странице, но скройте ее с помощью CSS, а затем заблокируйте всех, кто заходит на эту страницу.

Это заставит нарушителя повиноваться robots.txt, что означает, что вы можете навсегда убрать от него важную информацию или услуги, что сделает его клон с копией копий бесполезным.

2 голосов
/ 30 мая 2009

А как вы удерживаете кого-то от найма человека в стране с низкой заработной платой, чтобы использовать браузер для доступа к вашему сайту и записывать всю информацию? Создайте файл robots.txt, инвестируйте средства в инфраструктуру безопасности для предотвращения DoS-атак, запутывайте свой код (если он доступен, например, в javascript), запатентовывайте свои изобретения и защищайте авторские права на свой сайт. Пусть законные люди беспокоятся о том, что вас кто-то обворовает.

2 голосов
/ 30 мая 2009

Не пытайтесь распознать по IP, а также по времени или интервалам - используйте данные, которые вы отправляете сканеру, для их отслеживания.

Создайте белый список известных хороших сканеров - вы будете нормально показывать им свой контент. В остальном, обслуживайте страницы с дополнительным битом уникального контента, который только вы будете знать, как искать. Используйте эту подпись, чтобы позже определить, кто копировал ваш контент, и заблокировать их.

...