Один из главных арендаторов Hadoop переносит вычисления на данные.
Если вы установите коэффициент репликации, приблизительно равный количеству узлов данных, вы гарантируете, что каждая машина сможет обрабатывать эти данные.
Однако, как вы упоминаете, издержки namenode очень важны, и большее количество файлов или реплик вызывает медленные запросы. Больше реплик также может насытить вашу сеть в нездоровом кластере. Я никогда не видел ничего выше 5, и это только для самых важных данных компании. Что-нибудь еще, они оставили в 2 репликах
Механизм выполнения не имеет большого значения, кроме того, что Tez / Spark превосходит MR в большинстве случаев, но важнее размер ваших файлов и формат, в котором они хранятся, - это будет основным фактором производительности выполнения.