Как запретить GoogleBot находить URL-адреса для приобретения? - PullRequest
2 голосов
/ 12 августа 2011

У меня есть apache перед zope 2 (несколько виртуальных хостов) с использованием стандартного простого правила перезаписи.

У меня большие проблемы с некоторыми старыми сайтами, которые я размещаю и googlebot.

Скажи, что у меня есть:

  • site.example.com / документы /
  • site.example.com / изображения / i.jpg
  • site.example.com / XML /
  • site.example.com / flash_banner.swf

Как мне предотвратить следующее?

  • site.example.com / документы / изображения / XML / i.jpg
  • site.example.com / изображения / XML / i.jpg
  • site.example.com / изображения / i.jpg / XML / документы / flash_banner.swf

Все отвечают правильным объектом из последней папки в конце URI, старые сайты написаны не очень хорошо, и в некоторых случаях Google входит и выходит из сотен перестановок структур папок, которые не существуют но всегда находил большие флеш файлы. Таким образом, вместо того, чтобы робот Google запускал флэш-файл один раз, он тянет его с сайта тысячи раз. Я нахожусь в процессе перемещения старых сайтов Django. Но мне нужно положить этому конец в Zope. В прошлом пробовали ipchains и mod_security, но на этот раз они не подходят.

1 Ответ

2 голосов
/ 12 августа 2011

Узнайте, на какой странице Google предоставляет все варианты путей к одним и тем же объектам.Затем исправьте эту страницу так, чтобы она предоставляла только канонические пути, используя методы absoute_url (), absoute_url_path () или virtual_url_path () перемещаемых объектов.

Вы также можете использовать sitemaps.xml или robots.txt , чтобы запретить Google указывать неправильные пути, но это, безусловно, обходной путь, а не исправление, как указано выше.

...