Использование флагов Hive для объединения файлов в Hive - PullRequest
0 голосов
/ 13 января 2020

Я имел в виду документацию Hive https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties#ConfigurationProperties -hive.merge.mapfiles .

Я использую следующие флаги в своем запросе INSERT

SET hive.merge.mapfiles=true;
SET hive.merge.mapredfiles=true;
SET hive.merge.size.per.task=1000000000;
SET hive.merge.smallfiles.avgsize=1000000000;

Но поскольку я наблюдаю, что число файлов не уменьшается, я просто хотел подтвердить, правильно ли я понимаю эти флаги:

  1. Первые 3 флага уменьшают количество создаваемых промежуточных файлов.

  2. Флаг hive.merge.smallfiles.avgsize объединяет файлы меньше указанного размера, только если создано несколько файлов. Он НЕ БУДЕТ КОМБИНИРОВАТЬ файлы, уже присутствующие в БД, если каждый прогон производит 1 отдельный файл.

Любая помощь будет оценена, спасибо!

...