Динамический robots.txt - PullRequest
       30

Динамический robots.txt

10 голосов
/ 04 сентября 2008

Допустим, у меня есть веб-сайт для размещения контента, созданного сообществом, который предназначен для очень определенного набора пользователей. Теперь, скажем, в интересах создания лучшего сообщества у меня есть не относящаяся к теме область, где члены сообщества могут публиковать сообщения или говорить о чем угодно, независимо от главной темы сайта.

Теперь я хочу, чтобы большая часть контента была проиндексирована Google. Заметным исключением является не относящийся к теме контент. У каждого потока есть своя собственная страница, но все потоки перечислены в одной папке, поэтому я не могу просто исключить поисковые машины из какой-либо папки. Это должно быть на странице. Традиционный файл robots.txt станет огромным, так как еще я могу это сделать?

Ответы [ 8 ]

21 голосов
/ 04 сентября 2008

Это будет работать для всех хорошо работающих поисковых систем, просто добавьте его к <head>:

<meta name="robots" content="noindex, nofollow" />
2 голосов
/ 04 сентября 2008

Если бы я использовал Apache, я бы использовал mod-rewrite для псевдонима robots.txt для скрипта, который мог бы динамически генерировать необходимый контент.

Редактировать: при использовании IIS вы можете использовать ISAPIrewrite , чтобы сделать то же самое.

0 голосов
/ 01 июля 2014

Просто помните, что запрет robots.txt НЕ помешает Google проиндексировать страницы, содержащие ссылки с внешних сайтов, все, что он делает, - это предотвращает внутренний просмотр. См http://www.webmasterworld.com/google/4490125.htm или http://www.stonetemple.com/articles/interview-matt-cutts.shtml.

0 голосов
/ 23 мая 2014

Только для этой темы, убедитесь, что ваша голова содержит метатег noindex. Это еще один способ запретить поисковым системам сканировать вашу страницу, кроме блокировки в robots.txt

0 голосов
/ 07 февраля 2014

заблокировать динамическую веб-страницу robots.txt использовать этот код


Пользователь-агент: *

Disallow: / setnewsprefs?

Disallow: /index.html?

Запретить: /?

Разрешить: /? Hl =

Запретить: /? Hl = * &

0 голосов
/ 30 сентября 2013

Вы можете реализовать это, заменив robots.txt динамическим сценарием, генерирующим вывод. С Apache Вы можете создать простое правило .htaccess, чтобы добиться этого.

RewriteRule  ^robots\.txt$ /robots.php [NC,L]
0 голосов
/ 10 мая 2013

Вы можете запретить поисковым системам читать или индексировать ваш контент, ограничивая метатеги роботов. Таким образом, паук будет учитывать ваши инструкции и будет индексировать только те страницы, которые вы хотите.

0 голосов
/ 04 сентября 2008

Одновременно с предложением @James Marshall - в ASP.NET вы можете использовать HttpHandler для перенаправления вызовов robots.txt в скрипт, который сгенерировал контент.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...