Игнорировать URL-адреса в robot.txt с конкретными параметрами? - PullRequest
60 голосов
/ 05 февраля 2012

Я бы хотел, чтобы Google игнорировал URL-адреса следующим образом:

http://www.mydomain.com/new-printers?dir=asc&order=price&p=3

Все URL, имеющие параметры dir, order и price, должны игнорироваться, но у меня нет опыта работы с Robots.txt.

Есть идеи?

Ответы [ 3 ]

112 голосов
/ 05 февраля 2012

Вот решение, если вы хотите запретить строки запроса:

Disallow: /*?*

или если вы хотите быть более точным в строке запроса:

Disallow: /*?dir=*&order=*&p=*

Вы также можете добавить в robots.txt URL-адрес, чтобы разрешить

Allow: /new-printer$

$ гарантирует, что будет разрешен только /new-printer.

Дополнительная информация:

http://code.google.com/web/controlcrawlindex/docs/robots_txt.html

http://sanzon.wordpress.com/2008/04/29/advanced-usage-of-robotstxt-w-querystrings/

21 голосов
/ 04 мая 2015

Вы можете заблокировать эти конкретные параметры строки запроса с помощью следующих строк

Disallow: /*?*dir=
Disallow: /*?*order=
Disallow: /*?*p=

Таким образом, если какой-либо URL содержит dir=, order= или p= в любом месте в строке запроса, он будет заблокирован.

3 голосов
/ 05 февраля 2012

Зарегистрируйте свой сайт с помощью инструментов Google WebMaster. Там вы можете рассказать Google, как обращаться с вашими параметрами.

Конфигурация сайта -> Параметры URL

У вас должны быть страницы, содержащие эти параметры, которые указывают, что они должны быть исключены из индексации через метатег роботов. например

...