Написать ETL в потоке данных - PullRequest
0 голосов
/ 26 сентября 2018

Привет, я хочу преобразовать логику преобразования в поток данных для некоторых целей анализа.Ниже приведен запрос, который я хочу преобразовать в задание потока данных.

select max(trans.TRANSACTIONS_ID) TRANSACTION_ID
, trans.ACCOUNT_ID ACCOUNT_ID
, max(dim.ACCOUNT_NAME) ACCOUNT_NAME 
, max(trans.DATE_ID) DATE_ID
, max(trans.CR_DR_INDICATOR) CR_DR_INDICATOR
, max(trans.TRANS_CODE) TRANS_CODE
, SUM(trans.AMOUNT) AMOUNT
, max(trans.BALANCE) BALANCE
, max(trans.TRANSACTION_TYPE) TRANSACTION_TYPE
, max(trans.BANK) BANK
, max(trans.ACCOUNT) ACCOUNT 
from `xxxxxxx.costing_uscase.TRANSACTIONS_MASTER_DATAFLOW_TEST`  trans, `xxxxxxxxxxx.costing_uscase.ACCOUNTS_MASTER_DATAFLOW_TEST_2` dim
where dim.ACCOUNT_ID = trans.ACCOUNT_ID
group by trans.ACCOUNT_ID;

Я использовал BigQueryTableIO.read для чтения из двух таблиц и использовал CoGroupBy, но немного запутался, как выполнить агрегирование над повторяемой таблицейстроки.

...