Python Apache Beam Datapiple groupby - PullRequest
       6

Python Apache Beam Datapiple groupby

0 голосов
/ 17 марта 2019

Я немного застрял в трансформации здесь.Я пытаюсь сгруппировать по идентификатору (ключевой столбец) и сортировать по DATE desc и получить последнюю запись.Аналогично параметру row_number () по порядку идентификаторов по DATE desc).

    Not sure how to get started on the next step. any help is really appreciated.

(p 
            | 'ReadTable' >> beam.io.Read(beam.io.BigQuerySource(
query = """select COL1, COL2, ID, DATE from
                                FROM `test.rex.t1`
                                 LIMIT 1000""", use_standard_sql = True))
     | 'Write to BigQuery' >> beam.io.Write(
                                 beam.io.BigQuerySink('test:res.t1_test',
                                 schema=get_schema('t1'),
                                 write_disposition=beam.io.BigQueryDisposition.WRITE_TRUNCATE,
                                 create_disposition=beam.io.BigQueryDisposition.CREATE_IF_NEEDED))
                             )
...