Использование неэффективных форматов файлов, например, формата TextFile, и хранение данных без сжатия усугубляет проблему с файлами, по-разному влияя на производительность и масштабируемость.Если, например, у вас есть таблица в Hive с множеством очень маленьких файлов в формате hdf, неоптимально, лучше объединить эти файлы в менее большие, потому что при чтении этой таблицы будет создано много картографов.
Использование Hive Объединение Функциональность:
Этот подход будет полезен, когда данные хранятся в Hadoop, а таблицы кустов строятся поверх него.По сути, Apache Hive предоставляет команду для объединения небольших файлов в более крупный файл внутри раздела.Вот как выглядит эта команда:
ALTER TABLE table_name [PARTITION (partition_key = 'partition_value' [, ...])] CONCATENATE;
Это работает, только если файлы данных хранятся в форматах RC или ORC .