Это сильно зависит от ваших задач, но, как правило, все это важно - включая задержки в сети, пропускную способность, загрузку / доступность процессора,
Я могу представить несколько сценариев, в которых пропускная способность сети не будет иметь большого значения, например, если вы уже загрузили массив данных в HDFS, то есть он четко распределен по всем узлам, и вы собираетесь это сделать сложное вычисление для этого массива в мапперах без каких-либо редукторов или с очень малой долей данных, поступающих в редукторы. Например, если вы собираетесь подсчитать количество строк в текстовых файлах, средства отображения будут считывать файлы размером в несколько гигабайт и выдавать только одно простое число в уменьшители - количество строк. Редукторы суммируют эти числа и вставляют один ответ в вывод. Это практически ничего не передается по сети => не влияет на производительность.
Однако в реальной жизни такие задачи встречаются довольно редко. Обычно между мапперами и редукторами происходит некоторое группирование, и, таким образом, большая часть расчета для каждой группы выполняется редукторами, то есть редукторам приходится передавать все данные из мапперов, обычно с интенсивным использованием сети.
Если вы расскажете больше о своих задачах, я могу дать более подробные оценки того, какое оборудование вы хотите использовать, и каковы слабые стороны текущего решения.