У меня есть таблица Hive, в которой есть столбец типа данных struct (пример ниже).Таблица создана в файле avro.
Используя pyspark, как я могу сгладить записи, чтобы в каждом столбце я получал простое значение типа данных (не struct, array или list) для загрузки другой таблицы Hive.
Я могу использовать таблицу Hive или файл avro в качестве источника.
Пример данных-
Имя столбца куста: Contract_Data
{"contract":
{"contractcode":"CCC",
unit:
{"value":"LOCAL",
desc:"LOCAL"},
segmentlist:
{"segment":[ #"segment" is array of struct here
{"transaction":"1",
"plans":
{"identifier":[ #"identifier" is array of struct here
{"value":"123","desc":"L1"},
{"value":"456","desc":"L2"}]
}
}]
}
},
plans:
{"listplans":[ #"listplans" is array of struct here
{"plantype":"M",
plandesign:
{"value":"PV","desc":"PD"},
state:
{"value":"ST","desc":"ST"}
}]
}
}