Я имел в виду документацию Hive https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties#ConfigurationProperties -hive.merge.mapfiles .
Я использую следующие флаги в своем запросе INSERT
SET hive.merge.mapfiles=true;
SET hive.merge.mapredfiles=true;
SET hive.merge.size.per.task=1000000000;
SET hive.merge.smallfiles.avgsize=1000000000;
Но поскольку я наблюдаю, что число файлов не уменьшается, я просто хотел подтвердить, правильно ли я понимаю эти флаги:
Первые 3 флага уменьшают количество создаваемых промежуточных файлов.
Флаг hive.merge.smallfiles.avgsize
объединяет файлы меньше указанного размера, только если создано несколько файлов. Он НЕ БУДЕТ КОМБИНИРОВАТЬ файлы, уже присутствующие в БД, если каждый прогон производит 1 отдельный файл.
Любая помощь будет оценена, спасибо!