Расчет графика SLA в Графане без учета каких-либо аномалий? - PullRequest
0 голосов
/ 31 октября 2019

Вопрос ко всем графанам / графитам гуру. : -)
Я новичок в Grafana / Graphite и могу использовать вашу помощь в создании графика SingleState для Uptime SLA, который также учитывает аномалии и простои, как упомянуто ниже.
Было бы здорово, если бы некоторые могли поделиться настройками графитаиспользование Grafana с метриками AWS CloudWatch для скользящего временного окна.
Конечная точка состояния нашего сервиса, для которой запланировано расписание событий AWS / CloudWatch, которое запускается каждые 5 минут и возвращает Успех: 1 и Ошибка: 0 или Успех: 0 и Ошибка 1.
Таким образом, наши метрические журналы могут быть следующими:

  • 10: 00 Ошибка: 0;Успех: 1
  • 10: 05 Ошибка: 0;Успех: 1
  • 10: 10 Ошибка: 1;Успех: 0
  • 10: 15 Ошибка: 1;Успех: 0
  • 10: 20 Ошибка: ноль;Успешно: ноль (событие AWS не сработало)
  • 10: 25 Ошибка: ноль;Успешно: ноль (событие AWS не сработало)
  • 10: 30 Ошибка: 0;Успешно: 2 (задержка доставки события AWS и обычное событие AWS)
  • 10: 35 Ошибка: 0;Успех: 1
  • 10: 40 Ошибка: 0;Успех: 1

Теперь бывают случаи, когда события AWS CloudWatch не запускались вообще или запускались позднее из-за какой-либо проблемы в событиях / облачных часах AWS. Кроме того, он не учитывает запланированное время простоя, когда пинг все еще активен, но базовые сервисы находятся в окне обслуживания.

На данный момент мы имеем следующую формулу в формуле Math и показываем результат asPercent: (SuccessCount / (SuccessCount + FailureCount)) * 100

Проблема в вышеприведенном подходе состоит в том, что он не учитывает: a) любые аномалии AWS / Events или AWS / CloudWatch, как я упоминал выше. ИЛИ b) любое запланированное время простоя службы

Хотелось бы узнать, что является стандартной практикой для решения проблемы, как указано выше. Большое спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...