Значения должны соответствовать вашим потребностям.:)
Ниже приведено мое понимание преимуществ значений:
.95 позволяет максимально использовать имеющиеся редукторы.Если Hadoop по умолчанию использует один редуктор, распределение не будет распределяться, что потребует больше времени, чем следует.Существует почти линейное соответствие (в моих ограниченных случаях) увеличению количества редукторов и сокращению времени.Если на 1 редуктор уходит 16 минут, на 8 редукторов это занимает 2 минуты.
1,75 - это значение, которое пытается оптимизировать различия в производительности машин в узле.Он создаст более одного прохода редукторов, так что более быстрые машины будут использовать дополнительные редукторы, в то время как более медленные - нет.
Этот показатель (1,75) должен быть гораздо более приспособлен к вашему оборудованию, чем.95 значение.Если у вас 1 быстрая машина и 3 медленнее, возможно, вы захотите только 1.10.Это число потребует дополнительных экспериментов, чтобы найти значение, соответствующее конфигурации вашего оборудования.Если число редукторов слишком велико, узкие места снова станут узким местом.