Я нахожу массу советов о том, как включить промежуточное сжатие данных с использованием устаревшего API, но я не обращаю внимания ни на что текущее. Я немного разбирался в API, но не обнаружил никаких очевидных эквивалентов, хотя я все еще набираю скорость, поэтому очевидно, что в игре тоже не хватает знакомства.
Вот один пример, с которым я столкнулся:
JobConf conf = new JobConf(new Configuration(), MyJob.class);
conf.set("mapreduce.compress.map.output", "true");
conf.set("mapreduce.map.output.compression.codec",
"org.apache.hadoop.io.compress.GzipCodec");
Наборы данных достаточно велики, чтобы перевести узлы hdfs в безопасный режим, если сжатие не используется, поэтому полагаться на то, что пользователи предоставят параметры cli, несет неприемлемый риск (доступного хранилища почти не так много, как должно быть) но это из моих рук). Мне нужно чистое решение для кодирования. Как включить сжатие и установить кодеки в 2.7 +?
Хотелось бы получить минимальный пример кода или наброски соответствующих частей API. Заранее спасибо!