В настоящее время мы запускаем Flink на кластере из 5 узлов с 5 менеджерами задач. Мы также используем 5 менеджеров заданий для восстановления, работающих на тех же хостах, что и менеджеры задач.
На прошлой неделе наш кластер завершил работу из-за ошибки OutOfMemory на менеджере заданий, каскадно подключившейся к четырем другим.
Выделение менеджеров заданий и менеджеров задач на разных хостах не помогло бы в нашем случае, но мне интересно, является ли совместное использование хостов правильной архитектурой для высокой доступности.
[Edit 1] @MIkCode - OOM возникло после выполнения слишком большого количества заданийв кластере.
[Правка 2] @Dominik Wosiński - Конечно нет :) Первый менеджер вышел из строя, потому что его куча была меньше. JM 2 (на хосте 2) вступил во владение, но сразу потерпел неудачу, поскольку все JM имеют одинаковый размер кучи.