Этим утром проснулись со страницей о том, что наш кластер не работает. Он вернулся сразу же. Я нашел журналы ошибок журнала с записями о вводе-выводе, занимающих более 15 секунд. Наш сервер мониторинга попытался пропинговать сервер, и произошла ошибка тайм-аута.
Я проверил один из наших инструментов мониторинга, чтобы увидеть, что происходит в 4:30 утра. Похоже, статистика обновляется в одной из наших больших баз данных. Инструмент показывает наш диск максимально Я вижу очень высокий% занятых времен для одного из дисков.
Теперь sqlagent проходит через все остальные базы данных в алфавитном порядке, делая то же самое. У нас есть автоматическое обновление статистики - но я думал, что это происходит по мере необходимости. У меня сейчас нет включенных заданий обновления статистики (о которых я знаю - и монитор заданий не показывает запущенных заданий), поэтому я не совсем уверен, что вызвало это.
http://support.microsoft.com/default.aspx?scid=kb;en-us;195565 - подтверждает мои мысли о необходимости автостатов.
То же самое произошло вчера вечером около 18:30 - в той же большой базе данных - несколько избранных статистиков из ... операторов.
Диски находятся в сети SAN, и мы работаем с последней версией SQL 2005.