Поток данных: динамическое изменение баланса работы против Fusion - PullRequest
0 голосов
/ 15 января 2019

Dynamic Work Rebalancing оптимально распределит работу среди рабочих, где fusion свернет график выполнения, так что график будет меньше, что означает, что в него будет вовлечено меньше работников. Как динамическая перебалансировка работы помогает слиянию, так что даже при наличии слияний распределение работы происходит оптимально? Например, если слитый работник борется из-за, скажем, разветвления, которое происходит на шаге карты. По логике говоря, больше работников должно быть вовлечено, но график слит. Может ли динамическая перебалансировка работы по-прежнему оказывать влияние в этой ситуации?

Ответы [ 2 ]

0 голосов
/ 25 января 2019

Динамическая перебалансировка должна работать, даже если график слит. Динамическая перебалансировка означает, что мастер просит работников разделить их работу и назначает эти работы неработающим.

Fusion - это логическая оптимизация конвейерного графа, а динамическая перебалансировка - оптимизация во время выполнения. Вы можете думать о том, что объединение пытается сократить этапы вычислений, в то время как динамическое перебалансирование пытается ускорить выполнение каждого этапа, независимо от того, является ли этот шаг достаточным или может быть объединен с другими этапами.

0 голосов
/ 17 января 2019

Если у вас есть шаг FanOut, который слит, рекомендуется отключить синтез после FanOut. Вы можете предотвратить такое слияние, добавив в конвейер операцию, которая заставляет службу Cloud Dataflow материализовать вашу промежуточную коллекцию PC. Например, вы можете вставить GroupByKey и разгруппировать после первого ParDo. Служба облачных потоков данных никогда не объединяет операции ParDo в агрегате.

Подробнее об этой теме можно узнать по следующей ссылке:

https://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#dynamic-work-rebalancing

Редактировать:

Я полагаю, что информация в разделе ограничений из документации по потоку данных о слиянии и перебалансировке работы может помочь здесь. «... Если большое количество шагов в вашей работе слиты, в вашей работе будет меньше промежуточных PCollections, и Dynamic Work Rebalancing будет ограничен количеством элементов в исходной материализованной PCollection." Надеюсь, это поможет

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...