Я записываю фрейм данных Spark в формате Avro в HDFS. И я хотел бы разбить большие файлы Avro, чтобы они соответствовали размеру блока Hadoop и в то же время не были бы слишком маленькими. Есть ли для этого какие-либо варианты данных или Hadoop? Как я могу разделить файлы для записи на более мелкие?
Вот как я записываю данные в HDFS:
dataDF.write
.format("avro")
.option("avroSchema",parseAvroSchemaFromFile("/avro-data-schema.json"))
.toString)
.save(dataDir)