Я пытаюсь прочитать данные из корзины GS и вывести их в другую корзину GS (разделенную пользовательским столбцом, date_date) в другую корзину. Данные в формате паркета. Поиск исходного кода Apache Beam на основе Python для выполнения в потоке данных.
Исходные данные состоят из трех столбцов: org, name, birth_time Ожидаемый вывод: org, name, Arri_time в папки org wise ..
# Instantiate a pipeline with all the pipeline options
p = beam.Pipeline(options=options)
#Processing and structure of pipeline
p \
| 'Input: QueryTable' >> beam.io.Read(beam.io.BigQuerySource(
query=known_args.bql,
use_standard_sql=True)) \
| 'Output: Export to Parquet' >> beam.io.parquetio.WriteToParquet(
file_path_prefix=known_args.output,
schema=parquet_schema,
file_name_suffix='.parquet'
)
Я ищу ответ о том, как реализовать запись в папки GS, разделенные по пользовательскому столбцу (в данном случае, org)