удалить SID из URL и перенаправить 301 с .htaccess - PullRequest
1 голос
/ 25 мая 2011

у нас есть несколько URL с SID в результатах поиска Google, мы хотели бы 301 перенаправить на страницы без SID. поэтому нам нужно переписать URL, чтобы изменить этот URL

http://www.in-due.de/hochzeitsshop/catalogsearch/result/index/?SID=8df077eea401bda0da7e9a980efe20cf&cat=148&dir=asc&limit=9&order=relevance&p=8&q=gold

в этот URL:

http://www.in-due.de/hochzeitsshop/catalogsearch/result/index/?cat=148&dir=asc&limit=9&order=relevance&p=8&q=gold

по существу удалив эту часть:

SID=8df077eea401bda0da7e9a980efe20cf&

Может кто-нибудь помочь?

Ответы [ 2 ]

3 голосов
/ 25 мая 2011

Войдите в инструменты Google для веб-мастеров и в разделе конфигурации сайта, при обработке параметров вы захотите добавить SID в список, и вы сможете удалить URL-адреса вручную, но я бы просто использовал этот файл robots.txt и позволил удалить ботов-пикап эти URL с идентификатором сеанса.

Вот файл robot.txt, который я использовал для сайтов Magento. Очевидно, вы можете настроить при необходимости:

# $Id: robots.txt,v magento-specific 2010/28/01 18:24:19 goba Exp $
#
# robots.txt
#
# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these "robots" where not to go on your site,
# you save bandwidth and server resources.
#
# This file will be ignored unless it is at the root of your host:
# Used:    http://example.com/robots.txt
# Ignored: http://example.com/site/robots.txt
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

# Website Sitemap
Sitemap: http://www.yourdomain.com/sitemap.xml

# Crawlers Setup
User-agent: *
Crawl-delay: 10

# Allowable Index
Allow: /*?p=
Allow: /index.php/blog/
Allow: /catalog/seo_sitemap/category/
Allow: /catalogsearch/result/

# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /magento/
Disallow: /media/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/

# Paths (clean URLs)
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/

# Files
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt

# Paths (no clean URLs)
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=
2 голосов
/ 26 мая 2011

Я бы не использовал для этого mod_rewrite, поскольку в этой ситуации это слишком. Иногда требуется идентификатор безопасности, и его не следует удалять из URL.

Вы можете делать то, что рекомендовал B00MER, и следовать рекомендациям Google: http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html

Например, вы бы добавили в заголовок страницы следующее:

И robots.txt, и объединенный канонический URL-адрес действительно должны устранить любые опасения, которые могут возникнуть у вас.

Удачи!

...