Вероятно, мы можем попробовать этот маршрут.
df=spark.read.option("multiline", "true").json("<Azure_Path>")
df.createOrReplaceTempView("test")
Затем вы можете начать использовать эту 'тестовую' таблицу в наборе Spark SQL для создания таблицы.
Если вы хотите, чтобы разделите массив элементов во вложенном JSON, затем попробуйте POS Explode для денормализации их в таблицу.
spark.sql("SELECT \
n.pos AS position, \
n.<unique_field> AS <unique_field>, \
<field1>[pos] AS <field1>, \
<field2>[pos] AS <field2>, \
<field3>[pos] AS <field3>\
FROM \
test \
LATERAL VIEW POSEXPLODE(<parent_field>.<unique_field>) n AS pos, <unique_field>").show()