Можно ли контролировать скорость сканирования с помощью robots.txt? - PullRequest
10 голосов
/ 17 октября 2011

Мы можем указать роботам сканировать или не сканировать наш веб-сайт в файле robot.txt.С другой стороны, мы можем контролировать скорость сканирования в Google Webmasters (насколько робот Google сканирует веб-сайт).Интересно, можно ли ограничить действия сканера robots.txt

Я имею в виду принятие ботов для сканирования страниц, но ограничение их присутствия временем, страницами или размером!

Ответы [ 4 ]

11 голосов
/ 03 февраля 2012

Существует одна директива, которую вы можете использовать в robots.txt, это «Crawl-delay».

Crawl-delay: 5

То есть роботы должны сканировать не более одной страницы в 5 секунд,Но эта директива официально не поддерживается robots.txt, насколько я знаю.

Также есть некоторые роботы, которые вообще не принимают файл count robots.txt.Поэтому, даже если вы запретили доступ к некоторым страницам, они все равно могут сканироваться некоторыми роботами, конечно, не такими крупными, как Google.

Например, Baidu может игнорировать robots.txt, но это не обязательно.

У меня нет официального источника этой информации, так что вы можете просто погуглить ее.

1 голос
/ 11 июля 2016

Я знаю, что это действительно старый вопрос, но я хотел добавить, что согласно документации Google здесь есть официальный ответ:

Как правило, вы можете настроить параметр скорости сканирования в Google Аккаунт Инструментов для веб-мастеров.

за: https://developers.google.com/webmasters/control-crawl-index/docs/faq#h04

В инструментах для веб-мастеров вы можете выполнить следующие действия:

  1. На домашней странице консоли поиска выберите нужный сайт.

  2. Нажмите значок шестеренки, затем нажмите «Настройки сайта».

  3. В разделе Скорость сканирования выберите нужный параметр, а затем ограничьте скорость сканирования по желанию.

Новая скорость сканирования будет действительна в течение 90 дней.

ref: Вопрос поддержки Google

1 голос
/ 17 октября 2011

Нет, в файле robots.txt можно указать только те страницы, которые вы не хотите индексировать, и к каким пользовательским агентам применяются эти правила. Вы ничего не можете сделать с файлом.

Некоторые веб-сайты используют директивы Allow и Sitemap, но они не являются действительными директивами согласно официальному веб-сайту, хотя некоторые сканеры могут их уважать.

1 голос
/ 17 октября 2011

Не то, что я нашел.Robots.txt - это место для размещения каталогов или файлов, которые вы хотите, чтобы боты включали или исключали.Если был способ, то он пока не стандартен.Помните, что тот, кто создает ботов, выбирает, уважать или нет robots.txt, не все боты («плохие боты») уважают этот файл.

В настоящее время, если были настройки, уменьшающие скорость сканирования, время на сайте и т. Д.. это было бы для бота на основе бота и не стандартизировано в значения robots.txt.

Дополнительная информация: http://www.robotstxt.org/robotstxt.html

...