Я должен добавить свой ответ здесь, так как принятый ответ на самом деле не касается проблемы должным образом. Также помните, что предотвращение сканирования Google не означает, что вы можете держать свой контент закрытым.
Мой ответ основан на нескольких источниках: https://developers.google.com/webmasters/control-crawl-index/docs/getting_started
https://sites.google.com/site/webmasterhelpforum/en/faq--crawling--indexing---ranking
robots.txt
Файл контролирует сканирование, но не индексацию! Эти два абсолютно разные действия, выполняемые отдельно. Некоторые страницы могут быть просканированы, но не проиндексированы, а некоторые могут даже проиндексированы , но не просканированы . Ссылка на страницу без сканирования может существовать на других веб-сайтах, что приведет к тому, что индексатор Google будет следовать ей и пытаться индексировать.
Вопрос касается индексации, которая собирает данные о странице, поэтому она может быть доступна в результатах поиска. Его можно заблокировать, добавив метатег:
<meta name="robots" content="noindex" />
или добавление HTTP-заголовка к ответу:
X-Robots-Tag: noindex
Если вопрос касается сканирования, тогда, конечно, вы можете создать файл robots.txt
и поставить следующие строки:
User-agent: *
Disallow: /
Сканирование - это действие, выполняемое для сбора информации о структуре одного конкретного веб-сайта. Например. Вы добавили сайт через Инструменты Google для веб-мастеров. Crawler примет это во внимание и заходит на ваш сайт в поисках robots.txt
. Если он не найдет ничего, он будет предполагать, что он может сканировать что угодно (очень важно также иметь файл sitemap.xml
, чтобы помочь в этой операции, а также указать приоритеты и определить частоты изменений). Если он найдет файл, он будет следовать правилам. После успешного сканирования он в какой-то момент запустит индексирование для просканированных страниц, но вы не сможете определить, когда ...
Важно : все это означает, что ваша страница все еще может отображаться в результатах поиска Google независимо от robots.txt
.
Я надеюсь, что, по крайней мере, некоторые пользователи прочтут этот ответ и прояснят его, поскольку важно знать, что на самом деле происходит.