Как заблокировать поисковые системы от индексации всех URL, начинающихся с origin.domainname.com - PullRequest
5 голосов
/ 05 октября 2010

У меня есть www.domainname.com, origin.domainname.com, указывающее на ту же кодовую базу.Есть ли способ, я могу предотвратить индексацию всех URL базового имени origin.domainname.com.

Есть ли какое-то правило в robot.txt для этого.Оба URL-адреса указывают на одну и ту же папку.Кроме того, я попытался перенаправить origin.domainname.com на www.domainname.com в файле htaccess, но, похоже, он не работает ..

Если кто-то, кто сталкивался с подобной проблемой и может помочь, я будублагодарен.

Спасибо

Ответы [ 2 ]

12 голосов
/ 05 октября 2010

Вы можете переписать robots.txt в другой файл (назовите этот 'robots_no.txt', содержащий:

User-Agent: *
Disallow: /

(источник: http://www.robotstxt.org/robotstxt.html)

.htaccess файл будетвыглядеть следующим образом:

RewriteEngine On
RewriteCond %{HTTP_HOST} !^www.example.com$
RewriteRule ^robots.txt$ robots_no.txt

Использовать настроенный файл robots.txt для каждого (под) домена:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.example.com$ [OR]
RewriteCond %{HTTP_HOST} ^sub.example.com$ [OR]
RewriteCond %{HTTP_HOST} ^example.com$ [OR]
RewriteCond %{HTTP_HOST} ^www.example.org$ [OR]
RewriteCond %{HTTP_HOST} ^example.org$
# Rewrites the above (sub)domains <domain> to robots_<domain>.txt
# example.org -> robots_example.org.txt
RewriteRule ^robots.txt$ robots_${HTTP_HOST}.txt [L]
# in all other cases, use default 'robots.txt'
RewriteRule ^robots.txt$ - [L]

Вместо того, чтобы просить поисковые системы блокировать все страницы для страниц, отличных от www.example.com, вы также можете использовать <link rel="canonical">.

Если http://example.com/page.html и http://example.org/~example/page.html оба указывают на http://www.example.com/page.html, поместите следующий тег в <head>:

<link rel="canonical" href="http://www.example.com/page.html">

См. Также Статья о Googles о rel = "canonical"

0 голосов
/ 14 марта 2019

Только для .htaccess:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} AltaVista [OR]
RewriteCond %{HTTP_USER_AGENT} Googlebot [OR]
RewriteCond %{HTTP_USER_AGENT} msnbot [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp
RewriteRule ^.*$ "http\:\/\/htmlremix\.com" [R=301,L]
...