Question

Посмотрите robots.txt этого сайта:

Содержание:

User-Agent: Googlebot
Disallow: /

Это должно указывать Google не индексировать сайт, нет?

Если это правда, почему сайт появляется в поиске Google?

earl · Answer 1 · 22 января 2011

Помимо необходимости ждать, поскольку обновления индекса Google занимают некоторое время, также обратите внимание, что если у вас есть другие сайты, ссылающиеся на ваш сайт, одного robots.txt будет недостаточно для удаления вашего сайта.

Цитирование страницы поддержки Google "Удалить страницу или сайт из результатов поиска Google" :

Если страница все еще существует, но вы не хотите, чтобы она появлялась в результатах поиска, используйте robots.txt, чтобы предотвратить ее сканирование Google. Обратите внимание, что в целом, даже если URL запрещен robots.txt, мы все равно можем проиндексировать страницу, если найдем ее URL на другом сайте. Однако Google не будет индексировать страницу, если она заблокирована в файле robots.txt , а есть активный запрос на удаление страницы .

Одно возможное альтернативное решение также упомянуто в вышеуказанном документе:

Кроме того, вы можете использовать метатег noindex . Когда мы видим этот тег на странице, Google полностью удаляет страницу из результатов поиска, даже если другие страницы ссылаются на нее. Это хорошее решение, если у вас нет прямого доступа к серверу сайта. (Вам нужно будет иметь возможность редактировать исходный HTML-код страницы).

Josh Habdas · Answer 2 · 10 октября 2018

Я могу подтвердить, что Google не уважает файл исключения роботов.Вот мой файл, который я создал до размещения этого источника в Интернете:

https://git.habd.as/robots.txt

И полное содержимое файла:

User-agent: *
Disallow:

User-agent: Google
Disallow: /

И Google все еще проиндексировал его.

Я не пользуюсь Google после закрытия своей учетной записи в марте прошлого года, и этот сайт никогда не добавлялся в консоль для веб-мастеров за пределами Яндекса, что оставляет мне два предположения:

Google не работаетЯндекс
Google не соблюдает стандарт исключения роботов

Я еще не просмотрел свои журналы, но я сделаю это, и я предполагаю, что я найду там пауков Google, которые плохо себя ведут.

Marc B · Answer 3 · 22 января 2011

Если вы только что добавили это, то вам придется подождать - это не мгновенно - пока робот Google не вернется, чтобы переосмыслить сайт и не увидит robots.txt, сайт все еще будет в их базе данных.

Я сомневаюсь, что это уместно, но вы, возможно, захотите изменить своего «Агента» на «агент» - Google, скорее всего, не учитывает регистр, но не помешает точно следовать стандарту.

Peca · Answer 4 · 10 декабря 2015

Вам необходимо удалить сайт из результатов поиска Google (инструменты Google для веб-мастеров).

С robots.txt вы можете получить только «Описание этого результата недоступно из-за robots.txt этого сайта - узнать больше.»

robots.txt: user-agent: Googlebot disallow: / Google все еще индексирует

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

robots.txt: user-agent: Googlebot disallow: / Google все еще индексирует

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы