Question

Мы можем указать роботам сканировать или не сканировать наш веб-сайт в файле robot.txt.С другой стороны, мы можем контролировать скорость сканирования в Google Webmasters (насколько робот Google сканирует веб-сайт).Интересно, можно ли ограничить действия сканера robots.txt

Я имею в виду принятие ботов для сканирования страниц, но ограничение их присутствия временем, страницами или размером!

ZurabWeb · Answer 1 · 03 февраля 2012

Существует одна директива, которую вы можете использовать в robots.txt, это «Crawl-delay».

Crawl-delay: 5

То есть роботы должны сканировать не более одной страницы в 5 секунд,Но эта директива официально не поддерживается robots.txt, насколько я знаю.

Также есть некоторые роботы, которые вообще не принимают файл count robots.txt.Поэтому, даже если вы запретили доступ к некоторым страницам, они все равно могут сканироваться некоторыми роботами, конечно, не такими крупными, как Google.

Например, Baidu может игнорировать robots.txt, но это не обязательно.

У меня нет официального источника этой информации, так что вы можете просто погуглить ее.

john · Answer 2 · 11 июля 2016

Я знаю, что это действительно старый вопрос, но я хотел добавить, что согласно документации Google здесь есть официальный ответ:

Как правило, вы можете настроить параметр скорости сканирования в Google Аккаунт Инструментов для веб-мастеров.

за: https://developers.google.com/webmasters/control-crawl-index/docs/faq#h04

В инструментах для веб-мастеров вы можете выполнить следующие действия:

На домашней странице консоли поиска выберите нужный сайт.
Нажмите значок шестеренки, затем нажмите «Настройки сайта».
В разделе Скорость сканирования выберите нужный параметр, а затем ограничьте скорость сканирования по желанию.

Новая скорость сканирования будет действительна в течение 90 дней.

ref: Вопрос поддержки Google

animuson · Answer 3 · 17 октября 2011

Нет, в файле robots.txt можно указать только те страницы, которые вы не хотите индексировать, и к каким пользовательским агентам применяются эти правила. Вы ничего не можете сделать с файлом.

Некоторые веб-сайты используют директивы Allow и Sitemap, но они не являются действительными директивами согласно официальному веб-сайту, хотя некоторые сканеры могут их уважать.

Gibron · Answer 4 · 17 октября 2011

Не то, что я нашел.Robots.txt - это место для размещения каталогов или файлов, которые вы хотите, чтобы боты включали или исключали.Если был способ, то он пока не стандартен.Помните, что тот, кто создает ботов, выбирает, уважать или нет robots.txt, не все боты («плохие боты») уважают этот файл.

В настоящее время, если были настройки, уменьшающие скорость сканирования, время на сайте и т. Д.. это было бы для бота на основе бота и не стандартизировано в значения robots.txt.

Дополнительная информация: http://www.robotstxt.org/robotstxt.html

Можно ли контролировать скорость сканирования с помощью robots.txt?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Можно ли контролировать скорость сканирования с помощью robots.txt?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы