Если у вас есть шаг FanOut, который слит, рекомендуется отключить синтез после FanOut. Вы можете предотвратить такое слияние, добавив в конвейер операцию, которая заставляет службу Cloud Dataflow материализовать вашу промежуточную коллекцию PC. Например, вы можете вставить GroupByKey и разгруппировать после первого ParDo. Служба облачных потоков данных никогда не объединяет операции ParDo в агрегате.
Подробнее об этой теме можно узнать по следующей ссылке:
https://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#dynamic-work-rebalancing
Редактировать:
Я полагаю, что информация в разделе ограничений из документации по потоку данных о слиянии и перебалансировке работы может помочь здесь. «... Если большое количество шагов в вашей работе слиты, в вашей работе будет меньше промежуточных PCollections, и Dynamic Work Rebalancing будет ограничен количеством элементов в исходной материализованной PCollection." Надеюсь, это поможет