Остановить Google от индексации - PullRequest
65 голосов
/ 24 декабря 2008

Есть ли способ остановить Google от индексации сайта?

Ответы [ 9 ]

104 голосов
/ 24 декабря 2008

robots.txt

User-agent: *
Disallow: /

это заблокирует все поисковые роботы от индексации.

для получения дополнительной информации см .: http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360

80 голосов
/ 11 февраля 2014

Я должен добавить свой ответ здесь, так как принятый ответ на самом деле не касается проблемы должным образом. Также помните, что предотвращение сканирования Google не означает, что вы можете держать свой контент закрытым.

Мой ответ основан на нескольких источниках: https://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling--indexing---ranking

robots.txt Файл контролирует сканирование, но не индексацию! Эти два абсолютно разные действия, выполняемые отдельно. Некоторые страницы могут быть просканированы, но не проиндексированы, а некоторые могут даже проиндексированы , но не просканированы . Ссылка на страницу без сканирования может существовать на других веб-сайтах, что приведет к тому, что индексатор Google будет следовать ей и пытаться индексировать.

Вопрос касается индексации, которая собирает данные о странице, поэтому она может быть доступна в результатах поиска. Его можно заблокировать, добавив метатег:

<meta name="robots" content="noindex" />

или добавление HTTP-заголовка к ответу:

X-Robots-Tag: noindex

Если вопрос касается сканирования, тогда, конечно, вы можете создать файл robots.txt и поставить следующие строки:

User-agent: *
Disallow: /

Сканирование - это действие, выполняемое для сбора информации о структуре одного конкретного веб-сайта. Например. Вы добавили сайт через Инструменты Google для веб-мастеров. Crawler примет это во внимание и заходит на ваш сайт в поисках robots.txt. Если он не найдет ничего, он будет предполагать, что он может сканировать что угодно (очень важно также иметь файл sitemap.xml, чтобы помочь в этой операции, а также указать приоритеты и определить частоты изменений). Если он найдет файл, он будет следовать правилам. После успешного сканирования он в какой-то момент запустит индексирование для просканированных страниц, но вы не сможете определить, когда ...

Важно : все это означает, что ваша страница все еще может отображаться в результатах поиска Google независимо от robots.txt.

Я надеюсь, что, по крайней мере, некоторые пользователи прочтут этот ответ и прояснят его, поскольку важно знать, что на самом деле происходит.

1 голос
/ 04 сентября 2018

Существует несколько способов остановить сканеры, включая Google, чтобы остановить сканирование и индексацию вашего сайта.

На уровне сервера через заголовок

Header set X-Robots-Tag "noindex, nofollow"

На уровне корневого домена через файл robots.txt

User-agent: *
Disallow: /

На уровне страницы через метатег роботов

<meta name="robots" content="nofollow" />

Однако я должен сказать, что если ваш веб-сайт устарел, а страницы / URL-адреса не существуют, вам следует подождать, пока Google автоматически деиндексирует эти URL-адреса при следующем сканировании - прочитайте https://support.google.com/webmasters/answer/1663419?hl=en

1 голос
/ 27 ноября 2016

Вы можете отключить этот сервер в целом, добавив приведенную ниже настройку глобально в apache conf или те же параметры можно использовать в vhost для отключения его только для определенного vhost.

Набор заголовков X-Robots-Tag "noindex, nofollow"

Как только это будет сделано, вы можете проверить его, проверив возвращенные заголовки apache.

curl -I staging.mywebsite.com HTTP / 1.1 302 Найдено дата: сб, 26 ноября 2016 22:36:33 GMT Сервер: Apache / 2.4.18 (Ubuntu) Расположение: / pages / X-Robots-Tag: noindex, nofollow Content-Type: text / html; кодировка = UTF-8 * +1010 *

0 голосов
/ 20 ноября 2017

Есть ли способ запретить Google индексировать сайт?

Чтобы остановить сканирование Google, просто добавьте следующий тег meta к head каждой страницы:

<meta name="googlebot" content="noindex, nofollow">
0 голосов
/ 27 марта 2013

используйте метатег nofollow:

<meta name="robots" content="nofollow" />

Чтобы указать nofollow на уровне ссылки, добавьте атрибут rel со значением nofollow к ссылке:

<a href="example.html" rel="nofollow" />
0 голосов
/ 03 ноября 2012

Также вы можете добавить мета роботов следующим образом:

<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

И еще один дополнительный слой - для изменения .htaccess, но вам необходимо тщательно проверить его.

0 голосов
/ 22 сентября 2011

Я использую простую страницу aspx для передачи результатов из Google в мой браузер, используя поддельный файл cookie «Pref», который получает 100 результатов одновременно, и я не хотел, чтобы Google видел эту страницу ретрансляции, поэтому я проверяю IP-адрес и если он начинается с 66.249, то я просто делаю перенаправление.

Нажмите мое имя, если вы цените конфиденциальность и хотели бы получить копию.

еще один прием, который я использую, - это наличие некоторого javascript, который вызывает страницу для установки флага в сеансе, потому что большинство (НЕ ВСЕ) веб-ботов не выполняют javascript, так что вы знаете, что это браузер с отключенным javascript или больше чем бот.

0 голосов
/ 21 сентября 2011

Имейте в виду, что сканер Microsoft для Bing, несмотря на их требование подчиняться robots.txt, не всегда делает это.

Статистика нашего сервера показывает, что у них есть несколько IP-адресов, на которых работают сканеры, которые не подчиняются robots.txt, а также число тех, которые выполняют.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...