мониторинг нескольких сервисов для производительности и здоровья - PullRequest
0 голосов
/ 09 ноября 2019

Вот наши требования.

  1. измеряет среднюю латентность веб-страницы в режиме реального времени (которая размещается на нескольких экземплярах AWS ecs). Мы хотим, чтобы наш сервис обслуживал страницу, скажем .. меньше чемвторой

  2. статус ошибки, отличной от http 200, не всплывает, мы хотим знать, есть ли проблема.

  3. отдельные сервисы, такие какasticsearchне выключен

  4. мы регистрируем некоторые критические ошибки (например, неудачная покупка) в часовом или эластичном поиске и хотим знать, не увеличивается ли он

  5. приятно иметь единый пользовательский интерфейс для мониторинга и иметь сигнал тревоги при выполнении определенных условий.

Я не знаю, нужно ли нам создавать сервисЯ надеюсь, что мы сами сможем использовать какой-нибудь готовый сервис.

Где нам собирать данные?
Я смотрю на

  • asticsearch, kibana (не хватаетalarm)
  • statsd (кажется, нам нужен отдельный фронт для визуализации)
  • netdata (больше похоже на инструмент мониторинга системы, чем на инструмент агрегирования данных)
  • munin, nagios (не уверен, что это то, что нам нужно)

Ответы [ 2 ]

0 голосов
/ 13 ноября 2019

Zabbix подходит для большинства из них.

  • с «веб-сценарий» , задержка веб-страницы может быть измерена через "web.test.in", "web.test.time" ...
  • также "web.test.rspcode" покажет вам код ответа HTTP, а затем при необходимости выдаст предупреждение (например: 200, 400, 401, 404, 500, 503 ...)
  • вы можете легко отслеживать поиск по электронной почте, используя официальный шаблон с дополнительными zabbix_agentd настройками
  • , для которых могут потребоваться другие специальные службы: Sentry, EFK stack, elastalert для архивации цели
  • Zabbix имеет свой собственный централизованный пользовательский интерфейс (с поддержкой прокси) и любые виды предупреждений (отображаются на приборной панели, в электронной почте, Slack, SMS, PagerDuty ...)
0 голосов
/ 09 ноября 2019

Кажется, что DataDog может быть хорошим решением для вас. Вы можете использовать его для мониторинга Elasticsearch, и у него есть продукт APM, который вы можете интегрировать в свое приложение для мониторинга его производительности. Если вы отслеживаете свое приложение с помощью Honeybadger , вы также можете отправлять метрики об этих ошибках в DataDog.

...