В соответствии с Hadoop: полное руководство
Стратегия Hadoop по умолчанию заключается в размещении первой реплики на том же узле, что и клиент (для клиентов, работающих вне кластера,узел выбирается случайным образом, хотя система старается не выбирать узлы, которые слишком переполнены или слишком заняты).Вторая реплика размещается на стойке, отличной от первой (вне стойки), выбранной случайным образом.Третья реплика размещается в той же стойке, что и вторая, но на другом узле, выбранном случайным образом.Дальнейшие реплики размещаются на случайных узлах в кластере, хотя система старается не размещать слишком много реплик в одной стойке.
Эта логика имеет смысл, поскольку она уменьшает разболтанность сети между различными узлами.Но книга была опубликована в 2009 году, и в инфраструктуру Hadoop было внесено много изменений.
Я думаю, это зависит от того, является ли клиент тем же узлом Hadoop или нет.Если клиент является узлом Hadoop, то все разбиения будут на одном узле.Это не обеспечивает лучшую пропускную способность чтения / записи, несмотря на наличие нескольких узлов в кластере.Если клиент не совпадает с узлом Hadoop, то этот узел выбирается случайным образом для каждого разделения, поэтому разбиения распределяются по узлам в кластере.Теперь это обеспечивает лучшую пропускную способность чтения / записи.
Одним из преимуществ записи на несколько узлов является то, что даже если один из узлов выйдет из строя, пара разделений может быть недоступна, но по крайней мере некоторые данные могут бытькак-то восстановился после оставшихся расколов.