У меня двойной вопрос о количестве страниц, просканированных Google, и это может быть связано с возможным дублированием контента (или нет) и влиянием на SEO.
Факты о моем количестве страниц и страниц, просмотренных Google
Я запустил новый сайт два месяца назад. Сегодня в нем около 150 страниц (оно увеличивается с каждым днем). Так или иначе, это количество страниц в моей карте сайта.
Если я посмотрю «Статистика сканирования» в веб-мастере Google, то увижу, что число страниц, сканируемых Google каждый день, намного больше (см. Изображение ниже).
Я не уверен, что это на самом деле хорошо, потому что он не только делает мой сервер немного более загруженным (5,6 МБ загрузки на 903 страницы в день), но я боюсь, что он также создает некоторый дублирующий контент.
Я проверил в Google (site: mysite.com), и он дает мне 1290 страниц (но отображаются только 191, если я не нажму «повторить поиск с пропущенными результатами». Давайте предположим, что это 191 из них в моей карте сайта (мне кажется, у меня проблема с дублирующимся содержимым около 40 страниц, но я просто обновляю сайт для этого).
Факты на моем robots.txt
Я использую файл robots.txt, чтобы запретить всем сканирующим движкам переходить на страницы с параметрами (см. Ниже роботы), а также с «Тегами».
User-Agent: *
Disallow: /administrator
Disallow: *?s
Disallow: *?r
Disallow: *?c
Disallow: *?viewmode
Disallow: */tags/*
Disallow: *?page=1
Disallow: */user/*
Самый важный из них - теги. Они в моем URL следующим образом:
www.mysite.com/tags/Advertising/writing
Он заблокирован файлом robots.txt (я проверял его у веб-мастера Google), но он все еще присутствует в поиске Google (но вам нужно нажать «повторить поиск с пропущенными результатами».)
Я не хочу, чтобы эти страницы сканировались, поскольку они дублируют содержимое (это своего рода поиск по ключевому слову), поэтому я помещаю их в robots.txt
Наконец, мои вопросы:
Почему Google сканирует страницы, которые я заблокировал в robots.txt?
Почему Google индексирует страницы, которые я заблокировал? Считаются ли эти страницы Google дублированным контентом? Если да, думаю, это плохо для SEO.
РЕДАКТИРОВАТЬ: Я НЕ спрашиваю, как удалить страницы, проиндексированные в Google (я уже знаю ответ).