Почему сканирование моих страниц в Google блокируется моим файлом robots.txt? - PullRequest
1 голос
/ 09 декабря 2011

У меня двойной вопрос о количестве страниц, просканированных Google, и это может быть связано с возможным дублированием контента (или нет) и влиянием на SEO.

Факты о моем количестве страниц и страниц, просмотренных Google

Я запустил новый сайт два месяца назад. Сегодня в нем около 150 страниц (оно увеличивается с каждым днем). Так или иначе, это количество страниц в моей карте сайта.

Если я посмотрю «Статистика сканирования» в веб-мастере Google, то увижу, что число страниц, сканируемых Google каждый день, намного больше (см. Изображение ниже). Google crawled up to 903 pages in a day

Я не уверен, что это на самом деле хорошо, потому что он не только делает мой сервер немного более загруженным (5,6 МБ загрузки на 903 страницы в день), но я боюсь, что он также создает некоторый дублирующий контент.

Я проверил в Google (site: mysite.com), и он дает мне 1290 страниц (но отображаются только 191, если я не нажму «повторить поиск с пропущенными результатами». Давайте предположим, что это 191 из них в моей карте сайта (мне кажется, у меня проблема с дублирующимся содержимым около 40 страниц, но я просто обновляю сайт для этого).

Факты на моем robots.txt

Я использую файл robots.txt, чтобы запретить всем сканирующим движкам переходить на страницы с параметрами (см. Ниже роботы), а также с «Тегами».

User-Agent: *
Disallow: /administrator
Disallow: *?s
Disallow: *?r
Disallow: *?c
Disallow: *?viewmode
Disallow: */tags/*
Disallow: *?page=1
Disallow: */user/*

Самый важный из них - теги. Они в моем URL следующим образом:

www.mysite.com/tags/Advertising/writing

Он заблокирован файлом robots.txt (я проверял его у веб-мастера Google), но он все еще присутствует в поиске Google (но вам нужно нажать «повторить поиск с пропущенными результатами».)

Я не хочу, чтобы эти страницы сканировались, поскольку они дублируют содержимое (это своего рода поиск по ключевому слову), поэтому я помещаю их в robots.txt

Наконец, мои вопросы:

Почему Google сканирует страницы, которые я заблокировал в robots.txt?

Почему Google индексирует страницы, которые я заблокировал? Считаются ли эти страницы Google дублированным контентом? Если да, думаю, это плохо для SEO.

РЕДАКТИРОВАТЬ: Я НЕ спрашиваю, как удалить страницы, проиндексированные в Google (я уже знаю ответ).

1 Ответ

1 голос
/ 09 декабря 2011

Почему Google сканирует страницы, которые я заблокировал в robots.txt? Почему Google индексирует заблокированные мной страницы?

Возможно, они просканировали его до того, как вы заблокировали его. Вам нужно подождать, пока они прочитают ваш обновленный файл robots.txt, а затем соответствующим образом обновить свой индекс. Для этого нет установленного расписания, но, как правило, оно больше для новых веб-сайтов.

Считаются ли эти страницы дублирующимся контентом?

Вы говорите нам. Дублированный контент - это когда две страницы имеют идентичный или почти идентичный контент на двух или более страницах. Это происходит на вашем сайте?

Блокировка дублированного контента - это , а не способ решения этой проблемы. Вы должны использовать канонические URL . Блокировка страниц означает, что вы ссылаетесь на «черные дыры» на вашем сайте, что вредит вашим усилиям по SEO. Канонические URL-адреса предотвращают это и дают полный список канонических URL-адресов за соответствующие термины, а также все ссылки на все дублированные страницы .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...