Я относительный новичок в hadoop и хочу лучше понять, как работает репликация в HDFS.
Скажите, что у меня есть система из 10 узлов (1 ТБ на каждый узел), что дает мне общую емкость 10 ТБ. Если у меня коэффициент репликации 3, то у меня есть 1 оригинальная копия и 3 реплики для каждого файла. Так что, по сути, только 25% моего хранилища составляют исходные данные. Таким образом, мой кластер на 10 ТБ фактически использует только 2,5 ТБ исходных (не реплицированных) данных.
Пожалуйста, дайте мне знать, если мой ход мыслей правильный.