Нет причины, по которой коэффициент репликации должен быть равен 3, то есть по умолчанию, который поставляется с hadoop. Вы можете установить уровень репликации отдельно для каждого файла в HDFS. В дополнение к отказоустойчивости наличие реплик позволяет параллельно выполнять задания, использующие одни и те же данные. Также, если есть реплики данных, hasoop может попытаться запустить несколько копий одной и той же задачи и выполнить операцию, которая когда-либо заканчивается первой. Это полезно, если по какой-то причине ящик работает медленно.