Могу ли я запретить паукам доступ к странице с определенными параметрами GET? - PullRequest
4 голосов
/ 26 мая 2011

У нас есть страница, которая может опционально принимать идентификатор в качестве параметра GET. Если указан неверный идентификатор, страница выдает ошибку и отправляет уведомление о том, что кто-то неправильно обращается к странице. Подлив топлива в огонь заключается в том, что идентификаторы могут быть действительны некоторое время, а затем истекают.

У нас возникла проблема, когда боты поисковой системы попадают на страницу со старыми, просроченными идентификаторами. Это означает, что мы получаем кучу «ложноположительных» предупреждений каждый раз, когда нас падают. Я хотел бы иметь какой-то способ сказать ботам, чтобы они продолжали сканировать страницу, но не использовали параметр GET - просто индексировали страницу без параметров. Возможно ли это даже удаленно с файлом robots.txt или чем-то подобным?


Примечание: Я знаю, что лучший способ решить эту проблему - это изменить поведение страницы, что на самом деле происходит в течение нескольких недель. Я пока ищу решение.

Ответы [ 2 ]

1 голос
/ 26 мая 2011

Вы можете предложить, чтобы пауки игнорировали определенные части вашего URL со следующим в robots.txt:

User-agent: *
Disallow: *id=

Изменить, чтобы уточнить: Это заставит пауков игнорировать любые URL с id = blah в строке GET - это волшебным образом не "снимает" часть id =. Но это действительно то, что вам нужно, поскольку обычный URL без параметров «? Id =» возвращает данные, которые вы хотите проиндексировать.

1 голос
/ 26 мая 2011

Внутри оператора if, где вы проверяете _GET, поместите этот HTML:

<meta name="robots" content="noindex, nofollow">
<meta name="googlebot" content="noindex, nofollow">
...