Это легко сделать с помощью библиотеки Apache Spark.
Предварительные условия: Данные должны быть одинарными JSON. Поскольку библиотека Spark DataSource не поддерживает многострочные JSON.
Ниже приведен пример кода с использованием Spark 2.x:
val spark = SparkSession.builder()
.master("local")
.getOrCreate()
val inpDF = spark.read.json("<inputPath>")
// Auto schema Inference
inpDF.printSchema()
inpDF.write.parquet("<outputPath>")
с одной линией JSON: {"Device":{"Brand":"Apple","Model":"Iphone11Pro"}}
Многолинейный JSON: {
"Device": {
"Brand":"Apple",
"Model":"Iphone11Pro"
}
}