Неиндексированный файл (?) Все еще найден в Google - PullRequest
2 голосов
/ 26 июля 2010

Как возможно, что моя страница /admin/login.asp найдена в Google с запросом «inurl: admin / login.asp», а не с запросом «site: www.domain.xx»?

У меня есть эта строка кода в моем robots.txt:

User-agent: *
Disallow: /admin/

И это в HTML-коде страницы:

<meta name="robots" content="noindex, nofollow" />

Есть идеи?

Ответы [ 2 ]

0 голосов
/ 04 ноября 2011

Когда вы находите URL на странице результатов поиска Google (SERP), имеет ли он тот же заголовок, что и ваш тег? И есть ли у него описание / фрагмент?

Мне кажется, что происходит то, что Google знает об URL-адресе по ссылке на вашем сайте, поэтому он попытается просканировать и проиндексировать его. Однако, поскольку он заблокирован файлом robots.txt, он не может сканировать страницу, поэтому он не может видеть метатег noindex, который находится на вашей странице входа.

Поскольку он не знает, что не должен индексировать страницу, Google добавит URL-адрес в индекс. Однако такие страницы, как правило, имеют только заголовок и URL в поисковой выдаче, и у них почти всегда нет описания / фрагмента. Иногда заголовок в поисковой выдаче выглядит так, как будто он сканировал страницу, но на самом деле он пытается сгенерировать заголовок на основе текста привязки ссылок, которые на него указывают.

Надежный способ не показывать страницу в поисковой выдаче - удалить команду Disallow: /admin/ и разрешить роботу Googlebot сканировать страницу и увидеть метатег noindex, nofollow.

Команда noindex удалит страницу из поисковой выдачи, а nofollow поможет уведомить робота Google не отдавать приоритет ссылкам, которые он находит на вашей странице входа (это поможет сохранить эффективность сканирования, но не гарантирует выигрыш Google сканировать ссылки, найденные на странице).

0 голосов
/ 26 июля 2010

Вы можете проверить Google Webmaster , правильно ли интерпретирует robots.txt Google Вы также можете запросить удаление URL из индекса там.

...