Я проверяю, можем ли мы использовать Apache Beam для нашего конвейера данных.Например, нам нужно выполнить приведенную ниже сложную трансформацию и обобщение данных.прямо сейчас мы делаем в pandas python:
dd_merged_f['group_id'] = dd_merged_f.assign(key=dd_merged_f['record_type'].eq('START').astype(int)).groupby(merge_cols)['key'].cumsum()
Просто интересно, можем ли мы сделать такой код с помощью PTransform?мы также должны сделать несколько соединений.