Мы запускаем Flink в 5-узловом кластере Flink с двумя менеджерами заданий и тремя менеджерами задач.
В последнее время мы сталкиваемся с этой проблемой, когда раз в день или около того все три диспетчера задач уничтожаются, в результате чего количество доступных слотов задач становится равным 0, что приводит к сбою всех заданий, запущенных в этом кластере. Единственное решение - вручную перезапустить диспетчеры задач.
Итак, я хотел знать некоторые типичные причины, которые могут привести к отключению диспетчера задач. И если есть способ автоматически восстановить их без ручного вмешательства.
Дополнительная информация: Работы, выполняемые в кластере, считывают данные из Kafka и записывают данные в Kafka / Cassandra.