Я использую coalesce (1) для записи набора записей в корзину s3 в процессе csv.
который занимает слишком много времени для 505 записей.
dataset.coalesce(1).write().csv("s3a://bucketname/path");
И я хочу упомянуть, что перед этим процессом записи у меня идет процесс шифрования, который изменяет значение некоторых полей строки набора данных. там я использую repartion (200). Как
dataset.javaRDD().repartition(200).map(r -> func());
Если я пропущу процесс шифрования, процесс записи даже не займет ни минуты.
В чем заключается проблема, которая вызывает замедление процесса?
Как я могу увеличить производительность?