Как написано в документации Flink :
По умолчанию для каждого кластера Flink существует один экземпляр JobManager. Это создает единую точку отказа (SPOF): если происходит сбой JobManager, новые программы не могут быть отправлены, а запущенные программы не работают.
Так что, да, если вы хотите установку, готовую к работе с as как можно меньше времени простоя, вам нужно настроить JobManager в HA.
ECS перезапустит ваш JobManager, но может случиться так, что некоторые TaskManager уже начали отказывать, потому что они не могут связаться с JobManager. Это также зависит от того, доступен ли ваш JobManager с тем же сетевым адресом (так что он может быть обнаружен повторно, не знакомым с ECS в этом отношении). Затем соответствующие задания будут перезапущены с течением времени, пока они окончательно не завершатся.
Если ECS действительно быстро перезапустит JobManager, вы, конечно, можете попытаться увеличить время ожидания пульса TaskManager, чтобы избежать этого случая. Но тогда действительно нужно попробовать и убедиться, что это надежно.
Кстати, если вы начинаете fre sh, я бы настоятельно рекомендовал пропустить ECS и go до K8s ( Амазон ЭКС). Гораздо проще в настройке и большей облачности c. Даже сейчас есть коммерческая платформа, свободно доступная как Community Edition без поддержки, которая делает установку невероятно быстрой.