Моя команда оценивает Flink для нескольких случаев использования, когда мы рассматриваем очень большое количество групп обработки, которые мы хотели бы сохранить изолированными. Существуют ли известные главные ловушки / узкие места, на которые люди могли бы рассчитывать при выполнении десятков тысяч заданий в одном кластере?
До сих пор мы замечали, что JobManager, кажется, замедляетсязначительно после нескольких сотен заданий, при этом рекомендация здесь состоит в том, чтобы разбить один большой кластер на несколько более мелких кластеров.Это лучший рекомендуемый подход, или есть ли способ заставить Flink работать надежно с очень большим количеством рабочих мест?