Я пытаюсь запустить несколько SQL-преобразований больших запросов и записать выходные данные преобразований в большую таблицу запросов, используя поток данных.
for query in list:
rows = p | 'read{}'.format(unique_id) >> beam.io.Read (beam.io.BigQuerySource (query=query, use_standard_sql=True))
rows | 'write{}'.format(unique_id) >> beam.io.WriteToBigQuery (table=output_table,
create_disposition=beam.io.BigQueryDisposition.CREATE_IF_NEEDED,
write_disposition=beam.io.BigQueryDisposition.WRITE_TRUNCATE)
В идеале он считывает каждый запрос из списка запросов ивыполняет операции чтения и записи, как указано.Я ожидал, что мой поток данных будет находиться в одном и том же конвейере один за другим, но я вижу, что создано несколько потоков, которые работают синхронно.
Google Dataflow
Как мне убедиться, что они находятся в одном конвейере?
Как убедиться, что у каждого запроса есть зависимость для запускатолько после того, как выше, он работает успешно?
В моем случае таблицы, создаваемые с каждым запросом SQL, будут использоваться в последующих запросах.