Как правило, если задача выполняется на том же сервере, что и процесс узла данных, запишите результат локально. В противном случае, выберите случайную точку данных.
Это может произойти в случае, если у вас есть процессы Hadoop, работающие в кластерах Mesos или Spark Standalone, где датоданы являются изолированными серверами хранения, или есть выделенные менеджеры узлов YARN с большими требованиями к памяти, но не слишком большим дисковым пространством.
Вторая реплика находится в той же стойке, но на другом сервере датоде, что и первая реплика.
Третья реплика находится в другом месте кластера, а не в той же стойке.
По крайней мере, так я это узнал ... Документация говорит, что второе и третье находятся в одной и той же удаленной стойке ... В любом случае две реплики находятся в одной стойке, третья - отдельно, в случае отказа стойки.