Как запретить поиск страниц из robots.txt - PullRequest
3 голосов
/ 05 октября 2009

Мне нужно запретить http://example.com/startup?page=2 поисковым страницам индексироваться.

Я хочу индексировать http://example.com/startup, но не http://example.com/startup?page=2, page3 и т. Д.

Кроме того, запуск может быть случайным, например, http://example.com/XXXXX?page

Ответы [ 3 ]

8 голосов
/ 05 октября 2009

Примерно так работает, что подтверждается функцией "test robots.txt" в Инструментах для веб-мастеров Google:

User-Agent: *
Disallow: /startup?page=

Disallow Значение этого поля указывает частичный URL, который не быть посещенным. Это может быть полный путь, или частичный путь; любой URL, который начинается с этим значением не будет получено.

Однако, , если первая часть URL изменится , вы должны использовать подстановочные знаки:

User-Agent: *
Disallow: /startup?page=
Disallow: *page=
Disallow: *?page=
3 голосов
/ 05 октября 2009

Вы можете поместить это на страницы, которые вы не хотите индексировать:

<META NAME="ROBOTS" CONTENT="NONE">

Это говорит роботам не индексировать страницу.

На странице поиска может быть более интересно использовать:

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

Это заставляет роботов не индексировать текущую страницу, но все же переходить по ссылкам на этой странице, что позволяет им переходить на страницы, найденные в поиске.

2 голосов
/ 05 октября 2009
  1. Создайте текстовый файл и назовите его: robots.txt
  2. Добавление пользовательских агентов и запрещение разделов (см. Образец ниже)
  3. Поместите файл в корень вашего сайта

Пример:

###############################
#My robots.txt file
#
User-agent: *
#
#list directories robots are not allowed to index 
#
Disallow: /testing/
Disallow: /staging/
Disallow: /admin/
Disallow: /assets/
Disallow: /images/
#
#
#list specific files robots are not allowed to index
#
Disallow: /startup?page=2
Disallow: /startup?page=3
Disallow: /startup?page=3
# 
#
#End of robots.txt file
#
###############################

Вот ссылка на актуальный файл Google robots.txt

Вы можете получить полезную информацию в разделе справки Google для веб-мастеров по блокировке или удалению страниц с помощью файла robots.txt

...