Дублированный контент в Google.SEO для Drupal - PullRequest
0 голосов
/ 30 мая 2011

У меня есть сайт Drupal, который работает и работает.Сайт не оптимизирован должным образом для SEO, и в Google создается много дублированного контента из-за категории /, таксономии и т. Д.

Структура:

/ var / www /appname / Содержит пользовательское приложение / var / www / appname / drup Содержит мою установку на drupal

Я просмотрел результаты поиска на сайте поиска Google: appname.com и обнаружил, что в нем много дубликатов.содержимое из-за / content, / taxonomy, / node и т. д.

Мой ROBOTS.txt .. в / var / www / appname уже содержит следующее, но я удивлен, что страницы все еще индексируются.Пожалуйста, сообщите.

User-agent: *
Crawl-delay: 10

Allow: /
Allow: /drup/

# Directories
Disallow: /drup/includes/
Disallow: /drup/misc/
Disallow: /drup/modules/
Disallow: /drup/profiles/
Disallow: /drup/scripts/
Disallow: /drup/themes/
# Files
Disallow: /drup/CHANGELOG.txt
Disallow: /drup/cron.php
Disallow: /drup/INSTALL.mysql.txt
Disallow: /drup/INSTALL.pgsql.txt
Disallow: /drup/install.php
Disallow: /drup/INSTALL.txt
Disallow: /drup/LICENSE.txt
Disallow: /drup/MAINTAINERS.txt
Disallow: /drup/update.php
Disallow: /drup/UPGRADE.txt
Disallow: /drup/xmlrpc.php
# Paths (clean URLs)
Disallow: /drup/admin/
Disallow: /drup/comment/reply/
Disallow: /drup/contact/
Disallow: /drup/logout/
Disallow: /drup/node/add/
Disallow: /drup/search/
Disallow: /drup/user/register/
Disallow: /drup/user/password/
Disallow: /drup/user/login/
# Paths (no clean URLs)
Disallow: /drup/?q=admin/
Disallow: /drup/?q=comment/reply/
Disallow: /drup/?q=contact/
Disallow: /drup/?q=logout/
Disallow: /drup/?q=node/add/
Disallow: /drup/?q=search/
Disallow: /drup/?q=user/password/
Disallow: /drup/?q=user/register/
Disallow: /drup/?q=user/log 

Ответы [ 5 ]

1 голос
/ 05 августа 2011

В Drupal так много модулей для SEO.Если вы хотите увидеть список всех модулей SEO.Пожалуйста, посмотрите на эту ссылку .

1 голос
/ 30 мая 2011

Есть несколько модулей, которые заботятся о SEO и дублированном контенте.Сначала я бы посоветовал установить и перейти на http://drupal.org/project/seo_checklist. Для дублированного контента вы можете проверить http://drupal.org/project/globalredirect

В любом случае, / taxonomy и / content - это просто списки, которые вместо запрета вы можете переопределить.пути с каким-либо пользовательским содержимым, позволяющие сканерам знать, на что они смотрят.

1 голос
/ 30 мая 2011

Вам просто нужен XML-карта сайта, которая сообщает Google, где находятся все страницы, вместо того, чтобы позволить Google сканировать его самостоятельно.

На самом деле, когда Stackoverflow находился в бета-версии - они пытались позволить гусеничнику творить чудеса. Однако на высокодинамичных сайтах получить адекватные результаты таким способом практически невозможно.

Таким образом, с помощью карты сайта XML вы сообщаете Google, где находится каждая страница и каков ее приоритет и как часто она меняется.

0 голосов
/ 25 апреля 2012

У вас есть возможность подтвердить право собственности на сайт с помощью Инструментов Google для веб-мастеров по адресу:

http://www.google.com/webmasters/tools

Если это так, я бы порекомендовал сделать это, а затем попробовать "Получить как Googlebot" в категории "Диагностика" для этого сайта. Ваш «Статус получения» будет указывать «Отклонено robots.txt», если ваш robots.txt работает должным образом.

Проиндексированные страницы могут зависать некоторое время и отображаться в результатах поиска Google после изменения файла robots.txt. Но Fetch As Googlebot показывает в реальном времени, что происходит, когда Googlebot постучал ...

Если URL-адреса, которые вы не хотите индексировать, извлекаются без проблем, тогда вам нужно сосредоточиться на проблемах с robots.txt ... где он находится, синтаксис, перечисленные пути и т. Д. Я всегда советую людям извлеките его вручную в браузере (в корне их веб-сайта), чтобы дважды проверить его на предмет очевидных глупостей.

0 голосов
/ 30 мая 2011

Вы можете запретить каталог, в котором отображается дублированный контент. Как вы объяснили, узел / content, / taxonomy, / показывает дублированный контент.

Добавьте следующий код в раздел «Каталоги» файла robots.txt, чтобы ограничить доступ поисковых систем к этим каталогам.

Disallow: / drup / content / Disallow: / drup / таксономия / Disallow: / drup / node /

...