В настоящее время я нахожусь в процессе разработки конвейера с использованием Apache Beam с Flink в качестве механизма выполнения. В рамках этого процесса я читаю данные из Kafka и выполняю ряд преобразований, которые включают в себя объединения, агрегации, а также поиск во внешней БД.
Идея состоит в том, что мы хотим иметь более высокий параллелизм с Flink, когда мы выполняем агрегирование, но в конечном итоге объединяем данные и имеем меньшее количество процессов, пишущих в БД, чтобы целевая БД могла справиться с этим (например, скажем, что я хочу иметь параллелизм 40 для агрегатов, но только 10 при записи в целевую БД).
Есть ли способ сделать это в Beam?