Robots.txt просто запрещает Googlebot видеть содержимое страницы.Тем не менее, если кто-то ссылается на вашу страницу, даже если Google не видит ее содержимого, Google знает, что на этом целевом URL есть веб-страница.
Если на страницу ссылается достаточное количество людей, Google может принять решение добавить ее и включить в индекс.Много раз Google собирает контекст этой веб-страницы из содержимого, которое на нее ссылается, и якорного текста ссылок.
Если вы действительно не хотите, чтобы URL был в индексе Google, рекомендуется 2подходы.
- Добавьте метатег роботов на страницу с помощью команды NOINDEX. note: Вы должны разрешить Google сканировать URL-адрес, чтобы увидеть команду NOINDEX.Поэтому вам придется отменить команду disallow в вашем файле robots.txt
- Добавить базовую аутентификацию HTTP на страницу
Любой из подходов гарантирует, что Google не добавит URL киндекс.Тем не менее, Google по-прежнему будет сканировать URL время от времени.
Для получения дополнительной информации представитель Google Джон Мюллер недавно сказал это в Twitter .
* 1024.*
... robots.txt определенно заблокирует сканирование контента (если не разрешено), хотя и не обязательно индексирует URL.[однако] без содержания сложно оценить