Некоторые предложения:
Если вы используете Kafka, клиентские метрики Kafka перенаправляются в метрическую систему Flink.Мониторинг отставания потребителя позволит вам узнать, не справляется ли ваша работа с потоком данных.
Если ваша работа не справляется с работой, анализ currentLowWatermark
поможет вам определить, какие задачи) сдерживают прогресс.
Разумно следить за контрольными точками.lastCheckpointDuration
, lastCheckpointSize
и numberOf{Completed,Failed,InProgress}Checkpoints
полезны здесь.
uptime
и downtime
могут помочь вам отследить, сколько времени ваша работа тратит на восстановление, а не на фактическую работу.
Сообщество недавно обсуждало, как мы могли бы лучше справиться с обнаружением противодавления.Вы найдете это обсуждение в архиве списка рассылки dev .