Вы можете переписать robots.txt
в другой файл (назовите этот 'robots_no.txt', содержащий:
User-Agent: *
Disallow: /
(источник: http://www.robotstxt.org/robotstxt.html)
.htaccess файл будетвыглядеть следующим образом:
RewriteEngine On
RewriteCond %{HTTP_HOST} !^www.example.com$
RewriteRule ^robots.txt$ robots_no.txt
Использовать настроенный файл robots.txt для каждого (под) домена:
RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.example.com$ [OR]
RewriteCond %{HTTP_HOST} ^sub.example.com$ [OR]
RewriteCond %{HTTP_HOST} ^example.com$ [OR]
RewriteCond %{HTTP_HOST} ^www.example.org$ [OR]
RewriteCond %{HTTP_HOST} ^example.org$
# Rewrites the above (sub)domains <domain> to robots_<domain>.txt
# example.org -> robots_example.org.txt
RewriteRule ^robots.txt$ robots_${HTTP_HOST}.txt [L]
# in all other cases, use default 'robots.txt'
RewriteRule ^robots.txt$ - [L]
Вместо того, чтобы просить поисковые системы блокировать все страницы для страниц, отличных от www.example.com
, вы также можете использовать <link rel="canonical">
.
Если http://example.com/page.html
и http://example.org/~example/page.html
оба указывают на http://www.example.com/page.html
, поместите следующий тег в <head>
:
<link rel="canonical" href="http://www.example.com/page.html">
См. Также Статья о Googles о rel = "canonical"