Robots.txt - как установить правило, чтобы не индексировать страницы с параметрами - PullRequest
0 голосов
/ 22 ноября 2011

Недавно мы добавили новый раздел на нашу веб-страницу. По сути, это каталог товаров для покупок, который позволяет фильтровать различные атрибуты, помогая посетителю свести результаты к тому, что им нужно.

Параметры передаются в URL, и я знаю, что Google будет индексировать эти страницы как разные страницы, хотя они по сути содержат одно и то же содержимое. Я знаю, что могу указать, какие страницы Google (и другие поисковые системы) могут индексировать, настроив соответствующие правила в файле Robots.txt.

Это на рассматриваемых страницах: http://www.reyniersaudio.com/recording-computer-studio-gear/audio-interfaces Как вы увидите, если вы выберете какой-либо из фильтров в правой части страницы или выберете опцию «Сортировать по», он отправит вас на новую страницу с таким же URL-адресом и строкой, начинающейся с «& filters = "and" & order_by = "

Например: http://www.reyniersaudio.com/recording-computer-studio-gear/audio-interfaces/&filters=Form+Factor%3A%3A1U+Full+Rack&order_by=part_price::asc

Какое правило я должен добавить в свой robots.txt, который скажет поисковым системам не индексировать эти избыточные страницы?

Ответы [ 2 ]

0 голосов
/ 09 декабря 2011

Если вы хотите запретить роботу Googlebot сканировать URL-адреса, содержащие «&», вы можете написать:

User-agent: Googlebot
Disallow: /*&

Или, если вы не хотите, чтобы какой-либо бот делал это, просто замените Googlebot в этом на *.

Обратите внимание, что не все боты работают с подстановочными знаками. Робот Googlebot и бот MSN (как бы это ни называлось в наши дни) делают. Я думаю, что бот Блэкко делает. Я знаю, что мой тоже. Некоторые могут этого не делать, поскольку подстановочные знаки не являются частью оригинальной спецификации robots.txt (которая никогда не была «настоящим» стандартом).

0 голосов
/ 08 декабря 2011

Инструменты Google для веб-мастеров позволяет вам напрямую сообщить им, что / как интерпретировать ваши различные параметры.Нет необходимости использовать robots.txt

...