Значительная задержка между нарушением сигнализации Cloudwatch и изменением состояния тревоги - PullRequest
0 голосов
/ 12 декабря 2018

У меня есть сигнал тревоги, настроенный на срабатывание, если одна из моих целевых групп генерирует> 10 ошибок 4xx всего в течение 1-минутного периода.Согласно AWS, балансировщики нагрузки сообщают о показателях каждые 60 секунд.Чтобы проверить это, я искусственно запросил несколько маршрутов, которых не было в моей целевой группе, чтобы сгенерировать группу из 404 ошибок.

Как и ожидалось, график метрики Cloudwatch показал точку нарушения на графике в пределахминуту или две.Тем не менее, еще 3-4 минуты проходит, пока фактический сигнал тревоги не изменится с «ОК» на «ТРЕВОГА».

При просмотре «Истории» сигнала тревоги, я вижу значительный разрыв между диапазоном датзапрос, почти 5 минут:

"stateReasonData": {
  "version": "1.0",
  "queryDate": "2018-12-11T21:43:54.969+0000",
  "startDate": "2018-12-11T21:39:00.000+0000",
  "statistic": "Sum",
  "period": 60,
  "recentDatapoints": [
    70
  ],
  "threshold": 10

Если я сообщу AWS, что я хочу, чтобы сработала сигнализация, если порог превышен для 1 из 1 точек данных в течение любого 60-секундного периода, почему он запрашивает только один раз каждые 5минут?Кажется, такой очевидный недосмотр.Я также не могу найти какой-либо возможный способ изменить период оценки.

...