Ключевые показатели здоровья для Apache Flink - PullRequest
0 голосов
/ 01 февраля 2019

Я пытаюсь выяснить, какие ключевые показатели здоровья для Apache Flink.Документация Flink содержит огромный список метрик, и трудно определить важные.

1 Ответ

0 голосов
/ 01 февраля 2019

Некоторые предложения:

Если вы используете Kafka, клиентские метрики Kafka перенаправляются в метрическую систему Flink.Мониторинг отставания потребителя позволит вам узнать, не справляется ли ваша работа с потоком данных.

Если ваша работа не справляется с работой, анализ currentLowWatermark поможет вам определить, какие задачи) сдерживают прогресс.

Разумно следить за контрольными точками.lastCheckpointDuration, lastCheckpointSize и numberOf{Completed,Failed,InProgress}Checkpoints полезны здесь.

uptime и downtime могут помочь вам отследить, сколько времени ваша работа тратит на восстановление, а не на фактическую работу.

Сообщество недавно обсуждало, как мы могли бы лучше справиться с обнаружением противодавления.Вы найдете это обсуждение в архиве списка рассылки dev .

...