Запретить ботам скачивать мои файлы - PullRequest
5 голосов
/ 28 июня 2010

У меня есть страница загрузки asp.net, которая отправляет файл клиенту, но я хочу запретить роботам загружать этот файл, потому что файл большой и, как я вижу из записей, бот скачивает этот файл около 20 раз.Это замедляет работу сервера и приводит к потреблению полосы пропускания.

Я запрограммировал эту страницу для подсчета загрузок и обнаружения .net framework клиента, чтобы я мог опубликовать установочный файл, содержащий .net framework или нет.1004 * Мне нужно как-то запретить Google и другим ботам зайти на эту страницу.

Моя ссылка на скачивание похожа на download.aspx? Pack = msp

Ответы [ 4 ]

8 голосов
/ 28 июня 2010

Да, добавьте файл robots.txt на свой сайт. Он должен содержать список правил (действительно предложений), как должны вести себя пауки.

Проверьте эту статью для получения дополнительной информации. Также для ударов это - файл robot.txt, используемый Google.

4 голосов
/ 28 июня 2010

Вы хотите файл robots.txt .Например:

User-agent: *
Disallow: /download.aspx

Это не приводит к принудительной блокировке поисковых систем, но большинство (включая Google) проверят файл robots.txt и следуют его инструкциям

3 голосов
/ 28 июня 2010

Вместо файла robots.txt, где это невозможно, вы можете украсить свои страницы тегом <meta name="robots" content="noindex">.

  • Опять же, как упоминал Донни, этопросто рекомендация для ботов, и нет необходимости следовать ей.

  • Реализуйте метод CAPTCHA, который предоставляет механизм входа в систему, позволяющий желаемым пользователям получить доступ к защищенной папке, где хранятся ваши самые большие файлы.

  • Вместо предоставления прямых ссылок на контент, который легко анализируется ботами, используйте Javascript в ссылке для скачивания , чтобы перенаправить пользователей.Многие боты не выполняют javascript, хотя обфускация ботов часто является движущейся целью.

3 голосов
/ 28 июня 2010

Правильный ответ, как отметили два других человека, заключается в создании файла robots.txt, чтобы роботы с хорошим поведением не загружали роботов.

Однако это важнознать, что не все роботы ведут себя хорошо, и что robots.txt является лишь рекомендательным.Если у вас есть страницы, которые не являются общедоступными, не указывайте их в файле robots.txt, чтобы «защитить» их, поскольку некоторые роботы с особенно плохим поведением на самом деле сканируют файл, чтобы увидеть, какие интересные URL-адреса могут быть, о которых они еще не знают.

...