Это моя первая неделя с Hive и HDFS, поэтому, пожалуйста, потерпите меня.
Почти все способы, которые я видел до сих пор для объединения нескольких файлов ORC, предлагают использовать ALTER TABLE
с командой CONCATENATE
.
Но мне нужно объединить несколько файлов ORC одной и той же таблицы без необходимости ALTER
таблицы. Другой вариант - создать копию существующей таблицы, а затем использовать ALTER TABLE
, чтобы моя исходная таблица не изменилась. Но я тоже не могу этого сделать из-за избыточности пространства и данных.
Я пытаюсь достичь (в идеале): мне нужно перенести эти ORC по одному файлу на таблицу в облачную среду. Итак, есть ли способ, которым я могу объединить ORC на ходу во время процесса переноса в облако? Может ли это быть достигнуто с / без Hive
, может быть, непосредственно с HDFS
?