Использование robots.txt для блокировки /? Param = X - PullRequest
2 голосов
/ 21 января 2011

Я создал веб-сайт с использованием WordPress, и в первый день он был полон фиктивного контента, пока я не загрузил свой. Google проиндексировал страницы, такие как:

www.url.com / кошка = 1

Теперь этих страниц не существует, и чтобы сделать запрос на удаление, Google попросил меня заблокировать их на robots.txt

Должен ли я использовать:

User-Agent: *
Disallow: /?cat=

или

User-Agent: *
Disallow: /?cat=*

Мой файл robots.txt будет выглядеть примерно так:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /author
Disallow: /?cat=
Sitemap: http://url.com/sitemap.xml.gz

Это выглядит нормально или может вызвать проблемы с поисковыми системами? Должен ли я использовать Allow: / вместе со всеми Disallow:?

Ответы [ 3 ]

2 голосов
/ 21 января 2011

Я бы пошел с этим на самом деле

Чтобы заблокировать доступ ко всем URL-адресам, которые содержат знак вопроса (?) (Более конкретно, любой URL-адрес, который начинается с вашего доменного имени, после которого следует любая строка,сопровождаемый знаком вопроса, сопровождаемым любой строкой):

User-agent: Googlebot
Disallow: /*?

Таким образом, я бы на самом деле пошел с:

User-agent: Googlebot
Disallow: /*?cat=

Resourse (Под соответствием паттерна)

0 голосов
/ 19 января 2012

Если поисковая система не может сканировать его, она не может определить, был ли он удален или нет, и может продолжать индексировать (или даже начинать индексировать) эти URL-адреса.

0 голосов
/ 22 января 2011

Как правило, , а не , следует использовать директивы robots.txt для обработки удаленного содержимого.Если поисковая система не может сканировать его, она не может определить, был ли он удален или нет, и может продолжать индексировать (или даже начинать индексировать) эти URL-адреса.Правильное решение состоит в том, чтобы ваш сайт возвращал код результата HTTP 404 (или 410) для этих URL-адресов, тогда они автоматически выпадут со временем.Инструменты для удаления URL , вам все равно придется отправлять эти URL по отдельности, поэтому вы не получите ничего, воспользовавшись запретом robots.txt.

...