Вот как я понимаю эту проблему:
Google попадет на ваш сайт, если кто-то отправит URL вашего сайта http://www.google.com/addurl/ или если на другом уже проиндексированном веб-сайте есть ссылка на ваш сайт.
Когда Google попадает на ваш сайт, он просматривает файл robots.txt и видит, какие там правила. Если вы не разрешите индексирование с помощью кода, подобного следующему, Google не будет индексировать ваш сайт в данный момент.
User-agent: *
Disallow: /
Но Google через несколько дней снова посетит ваш сайт и сделает то же самое, что и в первый раз, если вы не нашли robots.txt или обнаружили, что вы добавили правила, позволяющие им индексироватьвеб-сайт, используя код, подобный следующему, они начнут индексировать страницы и контент веб-сайта.
User-agent: *
Allow: /
О том, как запустить веб-сайт онлайн или нет?если вы запретите использование индекса Google с помощью файла robots.txt, то нет никакой разницы, и вам лучше.
Примечание. Я не уверен, что 100% правил, о которых я упоминал в этом ответе, так как Google всегда меняет свою индексациюtechnics.
Также то, что я сказал о Google, то же самое для других поисковых систем, таких как Yahoo и Bing, но это не правило для любой поисковой системы, это просто общий способ, так что может быть другой индекс поисковой системывсе ссылки на ваш веб-сайт, пока у вас есть robots.txt, не допускают индексацию.
И я обычно ставил сценическую версию с моих сайтов для тестирования в реальной среде, прежде чем переходить на реальную версию, и использовал роботов..txt, и я так и не нашел ни одной из этих сценических ссылок в Google, Bing или Yahoo.