Плюс: это супер простой способ распределить работу, которую необходимо выполнить.
Минус: из-за того, как Hadoop восстанавливается после сбоев, вы должны быть очень осторожны в управлении тем, что работает, а что нет (что вы определенно можете сделать, это просто то, на что нужно обратить внимание). Если, например, происходит сбой редукции, то все задания карты, которые передают этот раздел, также должны быть перезапущены. Очевидно, что это, скорее всего, будет работа без редуктора, но это все еще верно для мапперов ... что произойдет, если выполняется половина вызовов, а затем происходит сбой задания, поэтому оно переносится?
Вы могли бы использовать какую-то высокопроизводительную систему для управления фактически выполненными или какими-либо другими вызовами. Но это определенно может быть соответствующим образом использовано для этого.