Данные для таблицы хранятся в наборе базовых файлов. Новые записи, обновления и удаления сохраняются в дельта-файлах.
Для каждой транзакции, которая изменяет таблицу, создается новый набор дельта-файлов.Во время чтения считыватель объединяет базовый и дельта-файлы, применяя любые обновления и удаляя по мере чтения.
Впоследствии основное сжатие объединяет большие дельта-файлы и / или базовый файл в другой базовый файл с периодическим интерваломвремя, которое ускорит дальнейшую операцию сканирования таблицы.
Ниже приведена документация для поддержки этого: https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions
Надеюсь, это поможет.