Да, @KM верен настолько, что необходимо использовать сжатие.
a) Для управления размером данных необходимо использовать стратегии сжатия Hive.Только после сжатия данные кодируются.Ниже приведены свойства по умолчанию для автоматического сжатия.
hive.compactor.delta.num.threshold=10
hive.compactor.delta.pct.threshold=0.1
b) Несмотря на то, что это значение по умолчанию, одной из проблем, с которыми я столкнулся при сжатии, является то, что дельта-файлы, написанные nifi, были недоступны (возможность удаления)очистителем уплотнения (после самого уплотнения).Я исправил это, используя пользователя куста в качестве владельца таблицы, а также предоставив пользователю улья «права» на файлы дельты в соответствии со стандартами, изложенными в Kerberos.
d) Еще одна проблема, с которой я продолжаю сталкиваться, заключается взапуск заданий автоматического уплотнения.В моем случае, поскольку дельта-файлы продолжают поступать в куст для данной таблицы / раздела, самое первое основное задание на сжатие успешно завершается, удаляет дельты и создает базовый файл.Но после этого автокомпактные задания не запускаются.И улей накапливает огромное количество дельта-файлов.(которые должны быть очищены вручную <--- не желательно) </p>