Как данные распределяются между узлами HDFS? - PullRequest
0 голосов
/ 29 января 2020

Здесь я предполагаю, что у меня есть один кластер из 4 узлов и объем данных 500 ГБ. Затем в Hadoop1 с размером блока по умолчанию (64 МБ), как блоки данных будут назначены узлу, также я предполагаю коэффициент репликации как 3.

Мое понимание: Если у меня есть 200 МБ данных, затем в Hadoop1 с размером блока по умолчанию (64 МБ) данные разделяются на 4 блока 64 + 64 + 64 + 8, и в четырех узлах будут присутствовать все четыре блока и реплики.

I добавили картинку, чтобы показать мое понимание. Если мое понимание верно, то как это будет работать для 500 Мб данных, если не поможет мне понять. Мое понимание HDFS

1 Ответ

0 голосов
/ 29 января 2020

Да, ваше понимание верно. Размер блока по умолчанию в HDFS составляет 64 МБ для версии 1.x и 128 МБ для 2.x. Если блок не завершен, он становится спорным как есть. Но вы можете настроить размер, если вам это нужно.

enter image description here

Коэффициент репликации по умолчанию равен 3, но его также можно изменить в конфигурации, поэтому если у вас есть настроенные блоки осведомленности о стойке, которые реплицируются:

  • Один блок размещен на каком-то узле
  • Второй блок размещен в той же стойке, что и первый
  • Третий блок размещен на другой стойке

enter image description here

Для более подробной информации вы можете проверить эту статью

...