Слияние файлов паркета через Hive в настоящее время недоступно, насколько мне известно.Кроме того, «слияние паркетных инструментов» не рекомендуется, так как это может создать проблемы с данными / схемой.
Однако этого можно достичь с помощью Impala.
Если вы хотитеобъедините файлы в таблице по разделам, затем вы можете создать новую таблицу, содержащую только данные раздела из существующей таблицы, с большим количеством файлов в HDFS и после этого удалить из нее разделы.Шаги, как показано ниже,
Например,
CREATE TABLE tabA LIKE tabB;
INSERT INTO tabB SELECT * FROM tabA WHERE partition_key=1;
ALTER TABLE tabA DROP PARTITION (partition_key=1);
INSERT INTO tabA PARTITION(partition_key=1) select * from tabB;
DROP TABLE tabB;
где, tabA - исходная таблица с большим количеством файлов паркета в HDFS, tabB - промежуточная таблица, созданная для объединения файлов паркета tabA