Я видел несколько вопросов о записи одного файла в hdf, кажется, достаточно использовать coalesce(1)
.
например,
df.coalesce(1).write.mode("overwrite").format(format).save(location)
Но как мне указать "точное" количество файлов, которые будут записаны после операции сохранения?
Итак, мой вопрос:
Если у меня есть датафрейм, состоящий из 100 разделов, при выполнении операции записи он будет записывать 100 файлов?
Если у меня есть датафрейм, состоящий из 100 разделов, когда я выполняю операцию записи после вызова repartition(50)/coalsesce(50)
, будет ли он записывать 50 файлов?
Есть ли в искре способ, позволяющий указать результирующее количество файлов при записи кадра данных в HDFS?
Спасибо