У нас есть защищенный веб-сайт (разработанный на .NET 2.0 / C #, работающий на сервере Windows и IIS 5), на который участники должны войти, а затем они могут просматривать некоторые файлы PDF, хранящиеся в виртуальном каталоге. Чтобы запретить паукам сканировать этот веб-сайт, у нас есть файл robots.txt, который запрещает вход всех пользовательских агентов. Однако это НЕ помешает паукам-мошенникам индексировать PDF-файлы, поскольку они игнорируют команды robots.txt. Поскольку документы должны быть в безопасности, я не хочу, чтобы в этот виртуальный каталог попадали ЛЮБЫЕ пауки (даже самые хорошие).
Прочитайте несколько статей в Интернете и узнайте, как программисты (а не веб-мастера) решили эту проблему в своих приложениях, поскольку это кажется очень распространенной проблемой. Есть много вариантов в Интернете, но я ищу что-то простое и элегантное.
Некоторые варианты, которые я видел, но кажутся слабыми. Перечисленные здесь с их минусами:
Создание Honeypot / tarpit, который позволит проникнуть негодяям-паукам, а затем перечислит их IP-адрес. Минусы: это также может блокировать действительных пользователей, приходящих с одного и того же IP-адреса, необходимо вручную поддерживать этот список или иметь какой-то способ для участников удалить себя из списка. У нас нет диапазона IP-адресов, которые будут использовать действительные участники, так как веб-сайт находится в Интернете.
Анализ заголовка запроса: Однако, пауки-изгои используют имена реальных агентов, так что это бессмысленно.
Тэг мета-роботов: Минусы: подчиняются только Google и другим действительным паукам.
Был разговор об использовании .htaccess, который, как предполагается, хорош, но это будет только Apache, а не IIS.
Любые предложения очень приветствуются.
РЕДАКТИРОВАТЬ: как указано ниже 9000, пауки-мошенники не должны быть в состоянии попасть на страницу, требующую входа в систему. Я полагаю, что вопрос заключается в том, как запретить кому-либо, кто знает форму ссылки, запрашивать файл PDF без входа на веб-сайт.