Что вы всегда отслеживаете независимо от базы данных?
Мы всегда включаем аппаратные оповещения для всех наших серверов, в дополнение к оповещениям журнала. Аппаратные ошибки, такие как ошибки inode, могут, например, сбивать серверы так же быстро, как и ошибки 5xx. Мы видели, как клиентские возможности экспорта в PDF терпели неудачу, когда код на сервере не смог удалить старый экспорт, заполняя дисковое пространство до полного сбоя экспорта. Регулярные уведомления журнала не будут предупреждать вас об этих вещах, пока не станет слишком поздно. Но мониторинг места на диске будет иметь.
К сожалению, решения для управления журналами не настраивают эти оповещения автоматически, поэтому иногда вы обнаруживаете, что вам нужны оповещения трудным способом: когда у вас уже есть проблема.
Мы написали в блоге сообщение о том, почему важно объединить предупреждения о метрике оборудования со стандартными предупреждениями журнала: https://blog.bluematador.com/posts/how-essential-alerts-could-have-saved-the-millennium-falcon/