SEO хаос от изменения файла robots.txt на сайте Wordpress - PullRequest
1 голос
/ 16 марта 2010

Я недавно отредактировал файл robots.txt на своем сайте, используя плагин wordpress. Однако, с тех пор как я это сделал, Google, похоже, удалил мой сайт со своей страницы поиска. Я был бы признателен, если бы мог получить экспертное заключение о том, почему это так, и возможное решение. Первоначально я сделал это, чтобы повысить свой рейтинг в поиске, ограничив количество страниц, к которым обращается Google.

Это мой файл robots.txt в WordPress:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

Sitemap: http://www.instant-wine-cellar.co.uk/wp-content/themes/Wineconcepts/Sitemap.xml

Ответы [ 3 ]

5 голосов
/ 16 марта 2010

Это хорошая директива robots.txt для WordPress. Добавьте Allow: /wp-content/uploads, если вы хотите, чтобы загрузки были проиндексированы, но это не имеет смысла, так как все ваши изображения, PDF-файлы и т. Д. Включаются в ваши сообщения и страницы и индексируются там.

User-agent: *
Allow: /
Disallow: /*?s=
Disallow: /wp-admin/*
Disallow: /wp-content/*
Disallow: /wp-includes/*
Disallow: /wp-content/cache
Disallow: /wp-content/themes/*
Disallow: /trackback
Disallow: /comments
Disallow: /category/
Disallow: */trackback
Disallow: */comments

Но самая важная информация содержится в источнике вашей страницы:

<meta name='robots' content='noindex,nofollow' />

Это означает, что вы установили конфиденциальность в Dashboard / Settings / Privacy, и это блокирует всех поисковых роботов даже до того, как они попадут в robots.txt.

Как только вы получите хороший файл robots.txt и измените настройку конфиденциальности Wordpress, перейдите к инструментам Google для веб-мастеров и увеличьте скорость сканирования, чтобы Google быстрее заходил на сайт.

2 голосов
/ 08 апреля 2010

Примечание: «Вы заблокировали всех ботов, потому что вам не хватает критического параметра Разрешить: / после User-agent: *», равного неверно . По умолчанию robots.txt разрешает все сканирование, обычно вам не нужно указывать какие-либо директивы allow.

Однако метатег роботов noindex может стать причиной не индексирования содержимого сайта.

Кроме того, robots.txt в настоящее время блокирует все сканирование, поэтому поисковые системы не могут сказать, что сайт может быть снова проиндексирован. Если вы хотите, чтобы сайт снова был проиндексирован, вам нужно удалить «disallow: /» из файла robots.txt. Вы можете убедиться в этом в Инструментах Google для веб-мастеров, просмотрев последний файл robots.txt или воспользовавшись функцией «Получить как робот Google» для проверки сканирования страницы на сайте.

1 голос
/ 16 марта 2010

Я предлагаю вам воспользоваться средством проверки robots.txt инструментов веб-мастера google и указать пропавшие URL-адреса и убедиться, что Google по-прежнему будет там.

Таким образом, вы можете проверить, является ли это ваш robots.txt или что-то еще

...