Перед тем, как я записываю фрейм данных в hdfs, я coalesce(1)
заставляю его писать только один файл, поэтому его легко обрабатывать вручную при копировании, получать из hdfs, ...
Я бы написал такой код для записи вывода.
outputData.coalesce(1).write.parquet(outputPath)
(выходные данные - org.apache.spark.sql.DataFrame)
Я хотел бы спросить, влияют ли они на производительность, а не на объединение
outputData.write.parquet(outputPath)