Я пытаюсь вывести записи, используя следующий код:
spark.createDataFrame(asRow, struct)
.write
.partitionBy("foo", "bar")
.format("text")
.save("/some/output-path")
У меня нет проблем, когда данные маленькие. Однако, когда я обрабатываю ввод ~ 600 ГБ, я записываю около 290 тыс. Файлов, включая небольшие файлы на раздел. Есть ли способ, которым мы могли бы контролировать количество выходных файлов на раздел? Потому что сейчас я пишу много маленьких файлов, и это нехорошо.