robots.txt: user-agent: Googlebot disallow: / Google все еще индексирует - PullRequest
5 голосов
/ 22 января 2011

Посмотрите robots.txt этого сайта:

fr2.dk / robots.txt

Содержание:

User-Agent: Googlebot
Disallow: /

Это должно указывать Google не индексировать сайт, нет?

Если это правда, почему сайт появляется в поиске Google?

Ответы [ 4 ]

6 голосов
/ 22 января 2011

Помимо необходимости ждать, поскольку обновления индекса Google занимают некоторое время, также обратите внимание, что если у вас есть другие сайты, ссылающиеся на ваш сайт, одного robots.txt будет недостаточно для удаления вашего сайта.

Цитирование страницы поддержки Google "Удалить страницу или сайт из результатов поиска Google" :

Если страница все еще существует, но вы не хотите, чтобы она появлялась в результатах поиска, используйте robots.txt, чтобы предотвратить ее сканирование Google. Обратите внимание, что в целом, даже если URL запрещен robots.txt, мы все равно можем проиндексировать страницу, если найдем ее URL на другом сайте. Однако Google не будет индексировать страницу, если она заблокирована в файле robots.txt , а есть активный запрос на удаление страницы .

Одно возможное альтернативное решение также упомянуто в вышеуказанном документе:

Кроме того, вы можете использовать метатег noindex . Когда мы видим этот тег на странице, Google полностью удаляет страницу из результатов поиска, даже если другие страницы ссылаются на нее. Это хорошее решение, если у вас нет прямого доступа к серверу сайта. (Вам нужно будет иметь возможность редактировать исходный HTML-код страницы).

1 голос
/ 10 октября 2018

Я могу подтвердить, что Google не уважает файл исключения роботов.Вот мой файл, который я создал до размещения этого источника в Интернете:

https://git.habd.as/robots.txt

И полное содержимое файла:

User-agent: *
Disallow:

User-agent: Google
Disallow: /

И Google все еще проиндексировал его.

Я не пользуюсь Google после закрытия своей учетной записи в марте прошлого года, и этот сайт никогда не добавлялся в консоль для веб-мастеров за пределами Яндекса, что оставляет мне два предположения:

  1. Google не работаетЯндекс
  2. Google не соблюдает стандарт исключения роботов

Я еще не просмотрел свои журналы, но я сделаю это, и я предполагаю, что я найду там пауков Google, которые плохо себя ведут.

1 голос
/ 22 января 2011

Если вы только что добавили это, то вам придется подождать - это не мгновенно - пока робот Google не вернется, чтобы переосмыслить сайт и не увидит robots.txt, сайт все еще будет в их базе данных.

Я сомневаюсь, что это уместно, но вы, возможно, захотите изменить своего «Агента» на «агент» - Google, скорее всего, не учитывает регистр, но не помешает точно следовать стандарту.

0 голосов
/ 10 декабря 2015

Вам необходимо удалить сайт из результатов поиска Google (инструменты Google для веб-мастеров).

С robots.txt вы можете получить только «Описание этого результата недоступно из-за robots.txt этого сайта - узнать больше.»

...