Как запретить доступ к URL без параметров с помощью robots.txt - PullRequest
0 голосов
/ 18 октября 2010

Я бы хотел отказать веб-роботам в доступе по URL-адресу:

http://www.example.com/export

разрешить этот тип URL вместо:

http://www.example.com/export?foo=value1

Бот-паук вызывает /export без строки запроса, что вызывает много ошибок в моем журнале.
Есть ли способ управлять этим фильтром в robots.txt?

1 Ответ

1 голос
/ 19 октября 2010

Я предполагаю, что у вас есть проблемы с ботами, попадающими на первый URL в вашем примере.

Как сказано в комментарии, это, вероятно, невозможно, поскольку http://www.example.com/export является базовым URL ресурса. Даже если бы это было возможно в соответствии со стандартом, я бы не поверил, что боты правильно это понимают.

Я бы также не отправлял заголовок 401 Access denied или аналогичный, если URL вызывается без строки запроса по той же причине: бот может подумать, что ресурс полностью вышел за пределы.

Что бы я сделал в вашей ситуации, если бы кто-то достиг

 http://www.example.com/export

отправляет перенаправление 301 Moved permanently на тот же URL-адрес и строку запроса с некоторыми значениями по умолчанию, например

 http://www.example.com/export?foo=0

это должно поддерживать индекс поисковой системы в чистоте. (Тем не менее, это не решит проблему регистрации, которую вы указали в своем комментарии.)

...