mapred.compress.map.output : Сжатие данных между преобразователем и преобразователем.Если вы используете snappy-кодек, это, скорее всего, увеличит скорость чтения-записи и уменьшит нагрузку на сеть.Не беспокойся о плевке.Эти файлы не хранятся в формате hdf.Это временные файлы, которые существуют только для задания сокращения карты.
mapred.map.output.compression.codec : я бы использовал snappy
mapred.output.compress : этот логический флаг будет определять, будет ли целая карта / сокращение обрабатывать сжатые данные.Я бы тоже всегда устанавливал это на истину.Более быстрая скорость чтения / записи и меньше используемого дискового пространства.
mapred.output.compression.type : Я использую блок.Это сделает сжатие разделяемым даже для всех форматов сжатия (gzip, snappy и bzip2), просто убедитесь, что вы используете разделяемый формат файла, такой как sequence, RCFile или Avro.
mapred.output.compression.codec : это кодек сжатия для задания карты / сокращения.В основном я использую один из трех: Snappy (быстрое ч / б сжатие 2x-3x), gzip (обычное быстрое сжатие 5x-8x), bzip2 (медленное сжатие 8x-12x)
Такжепомните, когда сжатие выводит на карту, что из-за разделения сжатие будет отличаться в зависимости от вашего порядка сортировки.Чем ближе данные, тем лучше сжатие.