У меня задание уменьшения карты, настроенное для MultiTableHFileOutputFormat
, которое генерирует файлы для нескольких таблиц за один раз.
Все таблицы похожи и настроены для COMPRESSION => 'SNAPPY'
.Полное описание таблицы:
'my_table', {
NAME => 'f1',
VERSIONS => '1',
EVICT_BLOCKS_ON_CLOSE => 'false',
NEW_VERSION_BEHAVIOR => 'false',
KEEP_DELETED_CELLS => 'FALSE',
CACHE_DATA_ON_WRITE => 'false',
DATA_BLOCK_ENCODING => 'NONE',
TTL => 'FOREVER', MIN_VERSIONS => '0',
REPLICATION_SCOPE => '0',
BLOOMFILTER => 'ROW',
CACHE_INDEX_ON_WRITE => 'false',
IN_MEMORY => 'false',
CACHE_BLOOMS_ON_WRITE => 'false',
PREFETCH_BLOCKS_ON_OPEN => 'false',
COMPRESSION => 'SNAPPY',
BLOCKCACHE => 'true',
BLOCKSIZE => '65536'
}
Задание выполняется нормально, и данные успешно импортируются с помощью completebulkload
.Тем не менее, я заметил, что размер таблиц намного больше, чем ожидалось.Итак, я запустил крупное уплотнение, и размер стал нормальным (около 40% от первоначального).На данный момент довольно очевидно, что сгенерированные файлы не были сжаты.Я пропустил какую-то конфигурацию или массовая загрузка просто не поддерживает сжатие?