запускаем искру на кластере k8s с помощью оператора искры . для мониторинга мы используем prometheus .
мы хотим настроить оповещение, чтобы всякий раз, когда любой модуль, связанный с искровыми заданиями, переходил в состояние Failed , мы должны получать оповещение. и это правило оповещения должно проверять наличие таких неудачных модулей за последние 5 минут.
мы пытались использовать kube-state-metrics для этого, но мы не можем получить показатели вовремя исходя из. в любой заданный момент времени metri c kube_pod_status_phase {namespace = "spark-operator", phase = "Failed"} дает нам список всех модулей, которые находятся в неисправном состоянии.
приветствуются любые предложения или указания по этому поводу.