Job-Manager не восстанавливает контрольные точки Zookeeper - PullRequest
0 голосов
/ 27 ноября 2018

Мы развернули кластер заданий Flink (1 менеджер заданий и 1 менеджер задач) в нашей среде K8s и настроили его в режим HA (подключенный к Zookeeper).Задание находится в состоянии и контрольная точка включена с помощью бэкэнда RocksDB.Проблема заключается в том, что перезапуски диспетчера задач корректно восстанавливаются с последней контрольной точки, но перезапуски диспетчера заданий не выполняются:

[flink-akka.actor.default-dispatcher-5]recover: 2018-11-27 11:23:26,531 INFO  o.a.f.r.c.ZooKeeperCompletedCheckpointStore Recovering checkpoints from ZooKeeper.
[flink-akka.actor.default-dispatcher-5]recover: 2018-11-27 11:23:26,596 INFO  o.a.f.r.c.ZooKeeperCompletedCheckpointStore Found 0 checkpoints in ZooKeeper.
[flink-akka.actor.default-dispatcher-5]recover: 2018-11-27 11:23:26,597 INFO  o.a.f.r.c.ZooKeeperCompletedCheckpointStore Trying to fetch 0 checkpoints from storage.

Контрольные точки сохраняются в Google Cloud Storage и Zookeeper.

соответствующие свойства в flink-conf.yaml:

metrics.reporters: prom
metrics.reporter.prom.class: org.apache.flink.metrics.prometheus.PrometheusReporter
high-availability: zookeeper
high-availability.zookeeper.quorum: our-k8s-zookeeper-service:2181
high-availability.zookeeper.path.root: /flink
high-availability.cluster-id: /service_cluster
high-availability.storageDir: gs://our-flink-bucket/namespace/service/ha
high-availability.jobmanager.port: 6123
state.backend.fs.memory-threshold: 0
state.checkpoints.dir: gs://our-flink-bucket/namespace/service/checkpoints

Чего нам здесь не хватает?

1 Ответ

0 голосов
/ 29 ноября 2018

Наконец, мы нашли проблему, похоже, из-за ошибки в Flink 1.6.1 ( эта ).

Обновление до 1.6.2 решило ее.

...