Защита контента сайта от сканеров - PullRequest
5 голосов
/ 06 июля 2011

Содержание коммерческого сайта (ASP.NET MVC) регулярно просматривается в рамках конкурса.Эти люди являются программистами и используют сложные методы для сканирования сайта, поэтому идентификация их по IP невозможна.К сожалению, замена значений изображениями невозможна, поскольку сайт должен по-прежнему читаться программами чтения с экрана (JAWS).

Моя личная идея - использовать robots.txt: запретить сканерам доступ к одному общему URL-адресу на странице (этоможет быть замаскирована как обычная ссылка на элемент, но скрыта от обычных пользователей. Действительный URL: http://example.com? itemId = 1234 Запрещено: http://example.com? itemId = 123 до 128).Если владелец IP ввел запрещенную ссылку, покажите проверку CAPTCHA.Обычный пользователь никогда не пойдет по такой ссылке, потому что она не видна, Google не нужно сканировать ее, потому что она фальшивая.Проблема в том, что программа чтения с экрана все еще читает ссылку, и я не думаю, что это было бы настолько эффективно, чтобы ее можно было реализовать.

Ответы [ 3 ]

2 голосов
/ 06 июля 2011

Ваша идея может сработать для нескольких основных сканеров, но ее будет очень легко обойти.Им просто нужно будет использовать прокси-сервер и получить доступ к каждой ссылке с нового IP-адреса.

Если вы разрешите анонимный доступ к своему веб-сайту, вы никогда не сможете полностью защитить свои данные.Даже если вам удастся предотвратить сканеры с большим количеством времени и усилий, они могут просто заставить человека просматривать и захватывать контент с помощью чего-то вроде фиддлера.Лучший способ предотвратить просмотр ваших данных конкурентами - не размещать их в общедоступной части вашего сайта.

Заставить пользователей войти в систему может помочь, по крайней мере, тогда вы сможете определить, кто сканирует ваш сайт, и запретить их.

0 голосов
/ 06 июля 2011

Как уже упоминалось, на самом деле невозможно скрыть общедоступные данные от определенного пользователя, однако, поскольку они являются автоматическими сканерами, вы можете усложнить им жизнь, регулярно меняя макет своей страницы.

Вероятно, можно использовать разные главные страницы для создания одинаковых (или похожих) макетов, и вы можете поменять главную страницу на произвольную основу - это усложнит написание автоматизированного сканера.

0 голосов
/ 06 июля 2011

Я также собираюсь перейти к этапу защиты своего контента от сканеров.

Я думаю об ограничении того, что анонимный пользователь может видеть на сайте, и требует от него регистрации для полной функциональности.

пример:

public ActionResult Index()
{
    if(Page.User.Identity.IsAuthorized)
        return RedirectToAction("IndexAll");

    // show only some poor content
}

[Authorize(Roles="Users")]
public ActionResult IndexAll()
{
    // Show everything
}

Поскольку вы уже знаете пользователей, вы можете наказать любого сканера.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...