Google видит то, чего не должен видеть. Зачем? - PullRequest
7 голосов
/ 13 марта 2009

По какой-то таинственной причине Google проиндексировал оба этих адреса, которые ведут на одну и ту же страницу:

/ что-то / какой-то текстовый-1055.html

и

/ index.php? Рд = что-то & ID = 1055

(краткое уведомление - у сайта были дружественные URL с момента его запуска, я понятия не имею, как Google нашел URL «index.php?» - есть «недружественные» URL только в системе управления контентом, которая является ограничен)

Что я могу сделать, чтобы решить ситуацию? (У меня около 1000 страниц с двойной индексацией.) Кто-то сказал мне использовать «disallow: index.php?» в файле robots.txt. Правильно или неправильно? Любые другие предложения?

Ответы [ 6 ]

10 голосов
/ 13 марта 2009

Вы будете удивлены тем, насколько быстро и быстро роботы Google индексируют контент сайта. Это, в сочетании с множеством систем CMS, создающих непреднамеренные страницы / ссылки, делающие вероятность того, что в какой-то момент эти ссылки были открыты, является наиболее вероятным виновником. Также возможно, что ваша область администрирования не так безопасна, как вы думаете, робот Google прошел через это.

Хорошо себя ведет, и Google рекомендует , здесь нужно сделать

  1. Если возможно, создайте 301 переадресацию с URL-адресов в стиле строки запроса на URL-адреса канонического стиля. Вы говорите: «Привет, веб-бот / браузер, контент, который раньше был по этому URL, теперь находится по этому другому URL»

  2. Блокировка содержимого строки запроса в вашем файле robots.txt. Это похоже на запрос пауков или других автоматизированных программ"Эй, пожалуйста, не смотрите на это. Это не те URL, которые вы ищете"

  3. Google, по-видимому, позволяет указать канонический URL-адрес с помощью тега в верхней части вашей страницы. Попробуйте добавить их в.

Относительно того, является ли правильное поведение "правильной" вещью в отношении рейтинга Google ... кто знает. Только «Google» знает, как их алгоритмы работают сейчас и будут работать в будущем, и под Google я имею в виду группу инженеров и руководителей с противоречивыми целями о том, как должен работать поиск.

7 голосов
/ 14 марта 2009

Google теперь предлагает способ указать канонический URL-адрес страницы. Вы можете использовать следующий код в своем HTML, чтобы сообщить Google свой канонический URL:

<link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish" />

Подробнее о канонических URL-адресах в Google вы можете прочитать в их блоге на эту тему здесь: http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html Согласно сообщению в блоге, Ask.com, Microsoft Live Search и Yahoo! все поддерживают канонический тег.

3 голосов
/ 13 марта 2009

Лучше проверить, какой URI был запрошен ($_SERVER['REQUEST_URI']), и перенаправить, если он был /index.php.

3 голосов
/ 13 марта 2009

Если вы используете генераторы Sitemap для отправки в поисковые системы , вы также можете запретить их использование. Скорее всего, там, где Google получил ваши ссылки, от сканирования вашей папки и от проверки ваших журналов.

1 голос
/ 14 марта 2009

Возможно ли, что вы отправляете форму на аналогичный URL, а Google просто забирает ее из источника?

1 голос
/ 14 марта 2009

Изменение robots.txt не поможет, так как страница уже проиндексирована.

Лучше всего использовать постоянное перенаправление (301).

Если вы хотите удалить страницу, проиндексированную Google, единственный способ, более или менее, заставить ее вернуть сообщение 404 не найдено.

...