В прошлом месяце у нас был сбой, вызванный отключением планировщика AKS. Такие команды, как kubectl
, все еще работали, но модули не запускались. Когда мы связались с AKS, они в конечном итоге «перезапустили сервер API», который решил эту проблему.
Меня определенно беспокоит то, что мы можем потерять что-то столь же важное, как планировщик, и мы должны позвонить, чтобы спросить Azure чтобы исправить это.
Azure сделал контрольную плоскость непрозрачной изнутри кластера. Сервер API, планировщик и контроллер даже не перечислены как объекты. Мы работаем над простым модулем проверки работоспособности, который запускается и отправляет в Datadog пинг с надписью «Я жив», однако я склонен думать, что Azure должен каким-то образом обеспечивать мониторинг или просмотр состояния этих служб.
Кто-нибудь придумал лучший способ мониторинга этих процессов?