Вопрос ко всем графанам / графитам гуру. : -)
Я новичок в Grafana / Graphite и могу использовать вашу помощь в создании графика SingleState для Uptime SLA, который также учитывает аномалии и простои, как упомянуто ниже.
Было бы здорово, если бы некоторые могли поделиться настройками графитаиспользование Grafana с метриками AWS CloudWatch для скользящего временного окна.
Конечная точка состояния нашего сервиса, для которой запланировано расписание событий AWS / CloudWatch, которое запускается каждые 5 минут и возвращает Успех: 1 и Ошибка: 0 или Успех: 0 и Ошибка 1.
Таким образом, наши метрические журналы могут быть следующими:
- 10: 00 Ошибка: 0;Успех: 1
- 10: 05 Ошибка: 0;Успех: 1
- 10: 10 Ошибка: 1;Успех: 0
- 10: 15 Ошибка: 1;Успех: 0
- 10: 20 Ошибка: ноль;Успешно: ноль (событие AWS не сработало)
- 10: 25 Ошибка: ноль;Успешно: ноль (событие AWS не сработало)
- 10: 30 Ошибка: 0;Успешно: 2 (задержка доставки события AWS и обычное событие AWS)
- 10: 35 Ошибка: 0;Успех: 1
- 10: 40 Ошибка: 0;Успех: 1
Теперь бывают случаи, когда события AWS CloudWatch не запускались вообще или запускались позднее из-за какой-либо проблемы в событиях / облачных часах AWS. Кроме того, он не учитывает запланированное время простоя, когда пинг все еще активен, но базовые сервисы находятся в окне обслуживания.
На данный момент мы имеем следующую формулу в формуле Math и показываем результат asPercent: (SuccessCount / (SuccessCount + FailureCount)) * 100
Проблема в вышеприведенном подходе состоит в том, что он не учитывает: a) любые аномалии AWS / Events или AWS / CloudWatch, как я упоминал выше. ИЛИ b) любое запланированное время простоя службы
Хотелось бы узнать, что является стандартной практикой для решения проблемы, как указано выше. Большое спасибо.