Страница запрещена в robots.txt, но проиндексирована Google. Как это возможно? - PullRequest
0 голосов
/ 03 июля 2019

Мой сайт сталкивается с проблемами покрытия в консоли поиска Google.Проверьте следующее сообщение от Google в GSC:

Индексируется, хотя заблокировано robots.txt

Я запрещаю страницу своей учетной записи (https://www.joujou.com.au/account/) в robots.txt, ноон индексируется Google.Можно ли индексировать страницу в Google, если эта страница уже запрещена в файле robots.txt?

1 Ответ

0 голосов
/ 06 июля 2019

Robots.txt просто запрещает Googlebot видеть содержимое страницы.Тем не менее, если кто-то ссылается на вашу страницу, даже если Google не видит ее содержимого, Google знает, что на этом целевом URL есть веб-страница.

Если на страницу ссылается достаточное количество людей, Google может принять решение добавить ее и включить в индекс.Много раз Google собирает контекст этой веб-страницы из содержимого, которое на нее ссылается, и якорного текста ссылок.

Если вы действительно не хотите, чтобы URL был в индексе Google, рекомендуется 2подходы.

  1. Добавьте метатег роботов на страницу с помощью команды NOINDEX. note: Вы должны разрешить Google сканировать URL-адрес, чтобы увидеть команду NOINDEX.Поэтому вам придется отменить команду disallow в вашем файле robots.txt
  2. Добавить базовую аутентификацию HTTP на страницу

Любой из подходов гарантирует, что Google не добавит URL киндекс.Тем не менее, Google по-прежнему будет сканировать URL время от времени.

Для получения дополнительной информации представитель Google Джон Мюллер недавно сказал это в Twitter .

* 1024.*

... robots.txt определенно заблокирует сканирование контента (если не разрешено), хотя и не обязательно индексирует URL.[однако] без содержания сложно оценить

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...