синхронно выполнять поток обработки данных на DataFlow? - PullRequest
0 голосов
/ 01 марта 2019

Я хотел бы выполнить пакетную обработку для сложной обработки данных BigQuery с использованием DataFlow и сохранить ее в другой таблице BigQuery.

В частности, это такой процесс.

Чтение данных изBigQuery → Обработка Dofn → Обработка объединений → Обработка сглаживания → Обработка объединений → Обработка сглаживания → Запись данных в Bigquery.

Этот процесс перемещается в соответствии с намерениями DirectRunner (Local), но при выполнении с DataFlowRunner (GCP), поскольку каждыйPtransform выполняется асинхронно, процесс Combine выполняется, даже если чтение данных не завершено. Он не будет перемещаться серьезно, например.

Как можно синхронно выполнить поток обработки данных в DataFlow?

...