Я хотел бы выполнить пакетную обработку для сложной обработки данных BigQuery с использованием DataFlow и сохранить ее в другой таблице BigQuery.
В частности, это такой процесс.
Чтение данных изBigQuery → Обработка Dofn → Обработка объединений → Обработка сглаживания → Обработка объединений → Обработка сглаживания → Запись данных в Bigquery.
Этот процесс перемещается в соответствии с намерениями DirectRunner (Local), но при выполнении с DataFlowRunner (GCP), поскольку каждыйPtransform выполняется асинхронно, процесс Combine выполняется, даже если чтение данных не завершено. Он не будет перемещаться серьезно, например.
Как можно синхронно выполнить поток обработки данных в DataFlow?