Массовая загрузка HBase с MultiTableHFileOutputFormat не учитывает настройки сжатия - PullRequest
0 голосов
/ 07 мая 2019

У меня задание уменьшения карты, настроенное для MultiTableHFileOutputFormat, которое генерирует файлы для нескольких таблиц за один раз.

Все таблицы похожи и настроены для COMPRESSION => 'SNAPPY'.Полное описание таблицы:

'my_table', {
    NAME => 'f1', 
    VERSIONS => '1', 
    EVICT_BLOCKS_ON_CLOSE => 'false',
    NEW_VERSION_BEHAVIOR => 'false',
    KEEP_DELETED_CELLS => 'FALSE',
    CACHE_DATA_ON_WRITE => 'false',
    DATA_BLOCK_ENCODING => 'NONE',
    TTL => 'FOREVER', MIN_VERSIONS => '0',
    REPLICATION_SCOPE => '0',
    BLOOMFILTER => 'ROW',
    CACHE_INDEX_ON_WRITE => 'false',
    IN_MEMORY => 'false',
    CACHE_BLOOMS_ON_WRITE => 'false',
    PREFETCH_BLOCKS_ON_OPEN => 'false',
    COMPRESSION => 'SNAPPY',
    BLOCKCACHE => 'true',
    BLOCKSIZE => '65536'
}

Задание выполняется нормально, и данные успешно импортируются с помощью completebulkload.Тем не менее, я заметил, что размер таблиц намного больше, чем ожидалось.Итак, я запустил крупное уплотнение, и размер стал нормальным (около 40% от первоначального).На данный момент довольно очевидно, что сгенерированные файлы не были сжаты.Я пропустил какую-то конфигурацию или массовая загрузка просто не поддерживает сжатие?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...