Как использовать Python для потока данных Google для создания разбитой на разделы gs по полю в данных (паркет) - PullRequest
0 голосов
/ 04 ноября 2019

Я пытаюсь прочитать данные из корзины GS и вывести их в другую корзину GS (разделенную пользовательским столбцом, date_date) в другую корзину. Данные в формате паркета. Поиск исходного кода Apache Beam на основе Python для выполнения в потоке данных.

Исходные данные состоят из трех столбцов: org, name, birth_time Ожидаемый вывод: org, name, Arri_time в папки org wise ..

# Instantiate a pipeline with all the pipeline options
p = beam.Pipeline(options=options)


#Processing and structure of pipeline 
p \
| 'Input: QueryTable' >> beam.io.Read(beam.io.BigQuerySource(
    query=known_args.bql,
    use_standard_sql=True)) \
| 'Output: Export to Parquet' >> beam.io.parquetio.WriteToParquet(
        file_path_prefix=known_args.output,
        schema=parquet_schema,
      file_name_suffix='.parquet'
    )

Я ищу ответ о том, как реализовать запись в папки GS, разделенные по пользовательскому столбцу (в данном случае, org)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...