Невозможно объединить небольшие файлы ORC с помощью Spark - PullRequest
0 голосов
/ 06 сентября 2018

У меня есть внешняя таблица ORC с большим количеством маленьких файлов, которые ежедневно поступают из источника. Мне нужно объединить эти файлы в большие файлы.

Я попытался загрузить файлы ORC в спарк и сохранить с помощью метода перезаписи

val fileName = "/user/db/table_data/"  //This table contains multiple partition on date column with small data files.
val df = hiveContext.read.format("orc").load(fileName)
df.repartition(1).write.mode(SaveMode.Overwrite).partitionBy("date").orc("/user/db/table_data/)

Но mode(SaveMode.Overwrite) удаляет все данные из HDFS. Когда я пытался без mode(SaveMode.Overwrite) метода, он выкидывал файл ошибки уже существует.

Может ли кто-нибудь помочь мне продолжить?

1 Ответ

0 голосов
/ 07 сентября 2018

По предложению @Avseiytsev, я сохранил объединенные файлы orc в другой папке как источник в HDFS и переместил данные в путь к таблице после завершения задания.

...