Question

Я относительный новичок в hadoop и хочу лучше понять, как работает репликация в HDFS.

Скажите, что у меня есть система из 10 узлов (1 ТБ на каждый узел), что дает мне общую емкость 10 ТБ. Если у меня коэффициент репликации 3, то у меня есть 1 оригинальная копия и 3 реплики для каждого файла. Так что, по сути, только 25% моего хранилища составляют исходные данные. Таким образом, мой кластер на 10 ТБ фактически использует только 2,5 ТБ исходных (не реплицированных) данных.

Пожалуйста, дайте мне знать, если мой ход мыслей правильный.

Chris Shain · Answer 1 · 14 марта 2012

Ваше мышление немного не в себе.Коэффициент репликации 3 означает, что у вас есть 3 всего копий ваших данных.В частности, для вашего файла будет 3 копии каждого блока, поэтому, если ваш файл состоит из 10 блоков, общее количество блоков на 10 ваших узлов составит 30, или около 3 блоков на узел.

ВыПравильно полагать, что кластер 10x1 ТБ имеет емкость менее 10 ТБ - при коэффициенте репликации 3 он фактически имеет функциональную емкость около 3,3 ТБ при чуть меньшей фактической емкости из-за места, необходимого для любой обработки, содержащей временные файлыи т. д.

Репликация HDFS - данные хранятся

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Репликация HDFS - данные хранятся

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы