У меня есть внешняя таблица ORC с большим количеством маленьких файлов, которые ежедневно поступают из источника. Мне нужно объединить эти файлы в большие файлы.
Я попытался загрузить файлы ORC в спарк и сохранить с помощью метода перезаписи
val fileName = "/user/db/table_data/" //This table contains multiple partition on date column with small data files.
val df = hiveContext.read.format("orc").load(fileName)
df.repartition(1).write.mode(SaveMode.Overwrite).partitionBy("date").orc("/user/db/table_data/)
Но mode(SaveMode.Overwrite)
удаляет все данные из HDFS. Когда я пытался без mode(SaveMode.Overwrite)
метода, он выкидывал файл ошибки уже существует.
Может ли кто-нибудь помочь мне продолжить?