Почему координатор контрольно-пропускного пункта занимает много времени, чтобы получить завершение - PullRequest
0 голосов
/ 10 июля 2019

Мы POC flink (1.8) для обработки данных в режиме реального времени, и с помощью глобальной контрольной точки (S3) и локальной контрольной точки (EBS) разверните кластер на EKS.Наше приложение использует данные из Kinesis.

Для моего теста, например, я использую контрольный интервал 5 минут.и минимальная пауза 2 мин.

Проблема, которую мы увидели, выглядит следующим образом: кажется, что процесс контрольной точки мигания будет простаивать в течение 3-4 минут, прежде чем менеджер заданий получит полное уведомление.

вот некоторые записииз диспетчера заданий:

2019-07-10 11:59:03,893 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Triggering checkpoint 4 @ 1562759941082 for job e7a97014f5799458f1c656135712813d.
2019-07-10 12:05:01,836 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Completed checkpoint 4 for job e7a97014f5799458f1c656135712813d (22387207650 bytes in 58645 ms).

Как я понимаю, ведение журнала выше, объект completedCheckpoint (CheckpointCoordinator) был завершен за 58645 мс, но весь процесс проверки точек занял ~ 6 мин.

Это ведение журнала для 4. контрольной точки, но первые 3 контрольных точки были завершены вовремя.

...