У меня есть паркетный файл со схемой ниже, и мне нужно импортировать вложенный field_id = 3 в фрейм данных.
file.schema
<pyarrow._parquet.ParquetSchema object at 0x1a29d804d0>
required group field_id=0 report {
optional int32 field_id=1 date;
optional int32 field_id=2 batch;
repeated group field_id=3 metrics {
optional int64 field_id=1 field_1;
optional int64 field_id=2 field_2;
optional int64 field_id=3 field_3;
optional int64 field_id=4 field_4;
}
optional int64 field_id=4 toal;
}
Мне удалось импортировать только невложенные поля 1,2,4 с моим код ниже
Code to import files
files = glob.glob("*.snappy.parquet")
data = [pd.read_parquet(f,engine='fastparquet') for f in files]
merged_data = pd.concat(data,ignore_index=True)
merged_data.head()
date | batch | total
Любые предложения по импорту вложенного поля будут полезны