Я пытаюсь понять, как именно работает ALTER TABLE CONCATENATE в HIVE.
Я видел эту ссылку Как работает Hive 'изменить таблицу <имя таблицы> конкатенация'? но все, что я получил по этим ссылкам, это то, что для файлов ORC слияние происходит на уровне полосы.
Я ищу подробное объяснение того, как работает CONCATENATE. Например, у меня изначально было 500 небольших файлов ORC в HDFS. Я запустил Hive ALTER TABLE CONCATENATE, и файлы объединились в 27 больших файлов. Последующие запуски CONCATENATE сократили количество файлов до 16, и, наконец, я оказался в двух больших файлах (используется версия Hive 0.12), поэтому я хотел понять
Как именно работает CONCATENATE? Это смотрит на существующее количество файлов, а также размер? Как он будет определять количество выходных файлов ORC после объединения?
Есть ли какие-либо известные проблемы с использованием Concatenate? Мы планируем запускать конкатенацию один раз в день в окне обслуживания
Является ли использование CTAS альтернативой объединению и что лучше? Обратите внимание, что мое требование состоит в том, чтобы уменьшить количество файлов ORC (принимаемых через Nifi) без ущерба для производительности Read
Любая помощь приветствуется и спасибо заранее