Как запустить несколько преобразований SQL в потоке данных Google - PullRequest
0 голосов
/ 29 сентября 2018

Я пытаюсь запустить несколько SQL-преобразований больших запросов и записать выходные данные преобразований в большую таблицу запросов, используя поток данных.

for query in list:
     rows = p | 'read{}'.format(unique_id) >> beam.io.Read (beam.io.BigQuerySource (query=query, use_standard_sql=True))
     rows | 'write{}'.format(unique_id) >> beam.io.WriteToBigQuery (table=output_table,
                                      create_disposition=beam.io.BigQueryDisposition.CREATE_IF_NEEDED,
                                                      write_disposition=beam.io.BigQueryDisposition.WRITE_TRUNCATE)

В идеале он считывает каждый запрос из списка запросов ивыполняет операции чтения и записи, как указано.Я ожидал, что мой поток данных будет находиться в одном и том же конвейере один за другим, но я вижу, что создано несколько потоков, которые работают синхронно.

Google Dataflow

Как мне убедиться, что они находятся в одном конвейере?

Как убедиться, что у каждого запроса есть зависимость для запускатолько после того, как выше, он работает успешно?

В моем случае таблицы, создаваемые с каждым запросом SQL, будут использоваться в последующих запросах.

...