Я пишу секционированный вывод, используя приведенный ниже скрипт.
.write
.format("csv")
.partitionBy("date","region")
.option("delimiter", "\t")
.mode("overwrite")
.save("s3://mybucket/myfolder/")
Однако это приводит к 1 файлу под каждым разделом. Я хотел бы иметь несколько файлов одинакового размера в каждом разделе. Как я могу добиться того же. Я на спарке 2.2.
Я пытался использовать дополнительный ключ как часть перераспределения, как df_input_table.repartition($"region",$"date",$"region")
. Однако это приводит к разным размерам файлов.
Я бы хотел придерживаться Spark (вместо Hive).