Репликация HDFS - данные хранятся - PullRequest
2 голосов
/ 14 марта 2012

Я относительный новичок в hadoop и хочу лучше понять, как работает репликация в HDFS.

Скажите, что у меня есть система из 10 узлов (1 ТБ на каждый узел), что дает мне общую емкость 10 ТБ. Если у меня коэффициент репликации 3, то у меня есть 1 оригинальная копия и 3 реплики для каждого файла. Так что, по сути, только 25% моего хранилища составляют исходные данные. Таким образом, мой кластер на 10 ТБ фактически использует только 2,5 ТБ исходных (не реплицированных) данных.

Пожалуйста, дайте мне знать, если мой ход мыслей правильный.

1 Ответ

5 голосов
/ 14 марта 2012

Ваше мышление немного не в себе.Коэффициент репликации 3 означает, что у вас есть 3 всего копий ваших данных.В частности, для вашего файла будет 3 копии каждого блока, поэтому, если ваш файл состоит из 10 блоков, общее количество блоков на 10 ваших узлов составит 30, или около 3 блоков на узел.

ВыПравильно полагать, что кластер 10x1 ТБ имеет емкость менее 10 ТБ - при коэффициенте репликации 3 он фактически имеет функциональную емкость около 3,3 ТБ при чуть меньшей фактической емкости из-за места, необходимого для любой обработки, содержащей временные файлыи т. д.

...