Как добиться высокой доступности JobManager в кластере Mesos Flink? - PullRequest
0 голосов
/ 13 марта 2019

Официальная документация Flink обеспечивает решение высокой доступности для менеджеров по работе с кластерами Standalone And Yarn Flink.Но что нужно сделать для обеспечения высокой доступности с помощью кластера Mesos Flink?

Я узнал, что Flink использует Marathon для вызова сбойного JobManager, но возникает проблема: каждый раз, когда jobmanager перезапускается, задания возвращаются-deployed.Это не приемлемо для критически важных заданий.Есть ли решение этой проблемы?Или планируете ли поддерживать полную HA с режимом Flink on Mesos?

1 Ответ

0 голосов
/ 27 июня 2019

Я использовал эту конфигурацию во Flink, и она работала для двух мастеров мезо и одного ведомого:

high-availability: zookeeper
high-availability.storageDir: hdfs:///flink/ha/
high-availability.zookeeper.quorum: 0.0.0.0:2181,10.32.0.3:2181,10.32.0.4:2181,10.32.0.5:2181
fs.hdfs.hadoopconf: /opt/hadoop/etc/hadoop
fs.hdfs.hdfssite: /opt/hadoop/etc/hadoop/hdfs-site.xml
recovery.zookeeper.path.mesos-workers: /mesos-workers
env.java.home: /opt/java
mesos.master: 10.32.0.2:5050,10.32.0.3:5050

Кроме того, я использовал этот файл JSON в Marathon:

{
 "id": "flink",
 "cmd": "/home/flink-1.7.2/bin/mesos-appmaster.sh -Djobmanager.heap.mb=1024 -Djobmanager.rpc.port=6123 -Drest.port=8081 -Dmesos.resourcemanager.tasks.mem=1024 -Dtaskmanager.heap.mb=1024 -Dtaskmanager.numberOfTaskSlots=2 -Dparallelism.default=2 -Dmesos.resourcemanager.tasks.cpus=1",
"cpus": 1.0,
"mem": 1024,
 }

Надеюсь, это было полезно.

...