Вы можете указать количество целевых разделов при выполнении repartition
- scaladoc
df
.repartition(numPartitions = 24, 'date)
.write
.partitionBy("date")
.mode(SaveMode.Overwrite)
.parquet(outputPath)
Редактировать
Я только что понял, numPartitions
- это числоитоговых разделов всего.Таким образом, вы можете попытаться передать это число дней, умноженное на количество разделений, которое вы хотите на файл, например, numPartitions = 24 * 250
- однако, нет никакой гарантии, что во всех днях будет ровно 24 разделения, особенно если суммаданных за каждый день резко отличается.