Мы POC flink (1.8) для обработки данных в режиме реального времени, и с помощью глобальной контрольной точки (S3) и локальной контрольной точки (EBS) разверните кластер на EKS.Наше приложение использует данные из Kinesis.
Для моего теста, например, я использую контрольный интервал 5 минут.и минимальная пауза 2 мин.
Проблема, которую мы увидели, выглядит следующим образом: кажется, что процесс контрольной точки мигания будет простаивать в течение 3-4 минут, прежде чем менеджер заданий получит полное уведомление.
вот некоторые записииз диспетчера заданий:
2019-07-10 11:59:03,893 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Triggering checkpoint 4 @ 1562759941082 for job e7a97014f5799458f1c656135712813d.
2019-07-10 12:05:01,836 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Completed checkpoint 4 for job e7a97014f5799458f1c656135712813d (22387207650 bytes in 58645 ms).
Как я понимаю, ведение журнала выше, объект completedCheckpoint
(CheckpointCoordinator) был завершен за 58645 мс, но весь процесс проверки точек занял ~ 6 мин.
Это ведение журнала для 4. контрольной точки, но первые 3 контрольных точки были завершены вовремя.