Управление параллелизмом в ParDo Transform при записи в БД - PullRequest
0 голосов
/ 15 мая 2018

В настоящее время я нахожусь в процессе разработки конвейера с использованием Apache Beam с Flink в качестве механизма выполнения. В рамках этого процесса я читаю данные из Kafka и выполняю ряд преобразований, которые включают в себя объединения, агрегации, а также поиск во внешней БД.

Идея состоит в том, что мы хотим иметь более высокий параллелизм с Flink, когда мы выполняем агрегирование, но в конечном итоге объединяем данные и имеем меньшее количество процессов, пишущих в БД, чтобы целевая БД могла справиться с этим (например, скажем, что я хочу иметь параллелизм 40 для агрегатов, но только 10 при записи в целевую БД).

Есть ли способ сделать это в Beam?

...