Как мне сказать поисковым системам не индексировать контент через вторичные доменные имена? - PullRequest
1 голос
/ 17 августа 2010

У меня есть сайт на a.com (например). У меня также есть пара других доменных имен, которые я ни для чего не использую: b.com и c.com. В настоящее время они пересылают на a.com. Я заметил, что Google индексирует контент с моего сайта, используя b.com/stuff и c.com/stuff, а не только a.com/stuff. Как правильно указать Google индексировать контент только через a.com, а не через b.com и c.com?

?

Кажется, что перенаправление 301 через htaccess - лучшее решение, но я не уверен, как это сделать. Существует только один файл htaccess (каждый домен не имеет своего собственного файла htaccess).

b.com и c.com не являются псевдонимами a.com, это просто другие доменные имена, которые я резервирую для возможных будущих проектов.

Ответы [ 4 ]

6 голосов
/ 17 августа 2010

robots.txt - это способ указать паукам, что сканировать, а что не сканировать. Если вы поместите следующее в корень вашего сайта по адресу /robots.txt:

User-agent: *
Disallow: /

Хорошо ведущий себя паук не будет искать любую часть вашего сайта. На большинстве крупных сайтов есть файл robots.txt, например google

User-agent: *
Disallow: /search
Disallow: /groups
Disallow: /images
Disallow: /news
#and so on ...
3 голосов
/ 17 августа 2010

Вы можете просто создать перенаправление с файлом .htaccess следующим образом:

RewriteEngine on
RewriteCond %{HTTP_HOST} \.b\.com$ [OR]
RewriteCond %{HTTP_HOST} \.c\.com$
RewriteRule ^(.*)$ http://a.com/$1 [R=301,L]
0 голосов
/ 16 июня 2014

Пусть ваш серверный код сгенерирует каноническую ссылку, указывающую на страницу, которая будет считаться «исходной».Пример =

Ссылка: http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html - Обновление: этот тег-ссылка в настоящее время также поддерживается Ask.com, Microsoft Live Search и Yahoo!.

0 голосов
/ 21 ноября 2012

Это в значительной степени зависит от того, чего вы хотите достичь. 301 скажет, что контент перемещен навсегда (и это правильный способ передачи PR), это то, чего вы хотите достичь?

Вы хотите, чтобы Google вел себя? Чем вы можете использовать robots.txt, но имейте в виду, что есть и обратная сторона: этот файл доступен для чтения извне и каждый раз находится в одном и том же месте, поэтому вы, в основном, указываете расположение каталогов и файлов, которые вы, возможно, захотите защитить. Так что используйте robots.txt, только если нет ничего, что стоит защищать.

Если есть что-то, что стоит защитить, чем вы должны защитить каталог паролем, это будет правильным способом. Google не будет индексировать защищенные паролем каталоги.

http://support.google.com/webmasters/bin/answer.py?hl=en&answer=93708

Для последнего метода это зависит от того, хотите ли вы использовать файл httpd.conf или .htaccess. Лучше всего использовать httpd.conf, даже если .htaccess кажется более простым.

http://httpd.apache.org/docs/2.0/howto/auth.html

...