Вот наши требования.
измеряет среднюю латентность веб-страницы в режиме реального времени (которая размещается на нескольких экземплярах AWS ecs). Мы хотим, чтобы наш сервис обслуживал страницу, скажем .. меньше чемвторой
статус ошибки, отличной от http 200, не всплывает, мы хотим знать, есть ли проблема.
отдельные сервисы, такие какasticsearchне выключен
мы регистрируем некоторые критические ошибки (например, неудачная покупка) в часовом или эластичном поиске и хотим знать, не увеличивается ли он
приятно иметь единый пользовательский интерфейс для мониторинга и иметь сигнал тревоги при выполнении определенных условий.
Я не знаю, нужно ли нам создавать сервисЯ надеюсь, что мы сами сможем использовать какой-нибудь готовый сервис.
Где нам собирать данные?
Я смотрю на
- asticsearch, kibana (не хватаетalarm)
- statsd (кажется, нам нужен отдельный фронт для визуализации)
- netdata (больше похоже на инструмент мониторинга системы, чем на инструмент агрегирования данных)
- munin, nagios (не уверен, что это то, что нам нужно)