Импортировать файл Parqet с полем json в блокнот Jupyter - PullRequest
0 голосов
/ 27 мая 2020

У меня есть паркетный файл со схемой ниже, и мне нужно импортировать вложенный field_id = 3 в фрейм данных.

    file.schema

<pyarrow._parquet.ParquetSchema object at 0x1a29d804d0>
required group field_id=0 report {
  optional int32 field_id=1 date;
  optional int32 field_id=2 batch;
  repeated group field_id=3 metrics {
    optional int64 field_id=1 field_1;
    optional int64 field_id=2 field_2;
    optional int64 field_id=3 field_3;
    optional int64 field_id=4 field_4;
  }
  optional int64 field_id=4 toal;
}

Мне удалось импортировать только невложенные поля 1,2,4 с моим код ниже

Code to import files
files = glob.glob("*.snappy.parquet")
data = [pd.read_parquet(f,engine='fastparquet') for f in files]
merged_data = pd.concat(data,ignore_index=True)


merged_data.head()
date | batch | total

Любые предложения по импорту вложенного поля будут полезны

...