Google проиндексировал мои тестовые папки на моем веб-сайте :( Как мне ограничить веб-сканеры! - PullRequest
2 голосов
/ 11 июня 2009

Помощь Помощь! Google проиндексировал на моем веб-сайте тестовую папку, о которой никто, кроме меня, не должен был знать :(! Как мне запретить Google индексировать ссылки и определенные папки.

Ответы [ 6 ]

12 голосов
/ 11 июня 2009

Используйте файл исключения роботов или лучше, но пароль защищает ваши тестовые области! Использование файла robots.txt для «защиты» областей, которые вы не хотите, чтобы другие видели, похоже на вывешивание на задней двери таблички с надписью «Я оставил это открытым, но не входите» :)

Если вы зарегистрируетесь в инструментах Google для веб-мастеров , вы можете запросить удаление результата поиска, если убедитесь, что его сканер больше не доступен.

2 голосов
/ 11 июня 2009

Если вы используете Apache:

.htaccess

AuthUserFile //.htpasswd AuthGroupFile /dev/null AuthName "You must log in to access this development web site" AuthType Basic</p> <p><Limit GET></p> <pre><code>require valid-user

Файл пароля (.htpasswd) содержит

name:password

Пароль зашифрован. Если вы ищете «htpasswd», вы найдете множество бесплатных программ для шифрования пароля.

тригонометрический

2 голосов
/ 11 июня 2009

Возможно, правильный ответ - не размещать тестовый код на общедоступном веб-сайте. Почему это вообще часть вашего развертывания?

2 голосов
/ 11 июня 2009

Осторожно! Вы можете сказать "хорошим" ботам (например, Google) держаться подальше от определенных мест, но другие боты не играют так хорошо. Таким образом, единственный способ решить это правильно - добавить некоторые ограничения в места, которые не считаются «общедоступными». Вы можете ограничить доступ к некоторым IP-адресам, которым доверяете, или добавить аутентификацию по имени пользователя / паролю.

2 голосов
/ 11 июня 2009

Лучший способ избежать индексирования некоторых ваших материалов сканерами - это файл robots.txt в корне вашего сайта.

Вот пример:

User-agent: *
Allow: /
Crawl-delay: 5

User-agent: *
Disallow: /cgi-bin
Disallow: /css
Disallow: /img
Disallow: /js

В первом блоке я говорю гусеницу, что он может просматривать все.

Второй блок содержит список папок, которые я хочу, чтобы он избегал.

Это не безопасный способ действительно защитить его, так как некоторые сканеры его не уважают.

Если вы действительно хотите защитить его, лучше всего иметь файл .htaccess в этих папках для принудительной аутентификации.

2 голосов
/ 11 июня 2009

Использование robots.txt.

Google для этого или проверить: http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360

...