Каковы общие причины сбоя диспетчера задач Flink? Как устранить неполадки? - PullRequest
0 голосов
/ 30 августа 2018

Мы запускаем Flink в 5-узловом кластере Flink с двумя менеджерами заданий и тремя менеджерами задач.

В последнее время мы сталкиваемся с этой проблемой, когда раз в день или около того все три диспетчера задач уничтожаются, в результате чего количество доступных слотов задач становится равным 0, что приводит к сбою всех заданий, запущенных в этом кластере. Единственное решение - вручную перезапустить диспетчеры задач.

Итак, я хотел знать некоторые типичные причины, которые могут привести к отключению диспетчера задач. И если есть способ автоматически восстановить их без ручного вмешательства.

Дополнительная информация: Работы, выполняемые в кластере, считывают данные из Kafka и записывают данные в Kafka / Cassandra.

...