Размер блока диска и размер блока hadoop - PullRequest
0 голосов
/ 29 сентября 2018

Я прочитал много сообщений о том, что размер блока Hadoop 64 МБ уменьшает метаданные и помогает улучшить производительность по сравнению с размером блока 4 КБ.Но почему размер блока данных составляет ровно 4 КБ на диске ОС и 64 МБ в Hadoop.

Почему не 100 или какое-то другое большее число?

Ответы [ 2 ]

0 голосов
/ 03 марта 2019

В дополнение к существующим ответам также важно следующее:

Блоки на уровне ОС и блоки на уровне HDFS - это разные понятия.Если у вас есть файл 10 КБ в ОС, то это, по сути, означает выделение 3 блоков по 4 КБ, и в результате вы потребляете 12 КБ.Очевидно, что вы не хотите выделять большую часть вашего пространства для блоков, которые не заполнены, поэтому вам нужен небольшой размер блока.

Однако в HDFS содержимое блока определяет размер блока.Так что, если у вас есть 129 МБ, которые могут быть сохранены в 1 блоке 128 МБ и 1 блоке 1 МБ.(Я не уверен, будет ли это распространяться по-другому).

В результате вы не «потеряете» 127 МБ, которые не выделены.

Имея это в виду, вызахочет иметь сравнительно большой размер блока для оптимизации управления блоками.

0 голосов
/ 30 сентября 2018

Но почему размер блока данных составляет ровно 4 КБ на диске ОС и 64 МБ на Hadoop.

В HDFS мы храним огромные объемы данных по сравнению с файловой системой одной ОС.Таким образом, не имеет смысла иметь небольшие размеры блоков для HDFS.Имея небольшие размеры блоков, будет больше блоков, и NameNode должен хранить больше метаданных о блоках.А также выборка данных будет медленной, так как данные из большего числа блоков, распределенных по многим машинам, должны быть выбраны.

Почему бы не 100 или какое-то другое большее число?

Изначально размер блока HDFS составлял 64 МБ, а теперь по умолчанию 128 МБ.Проверьте свойство dfs.blocksize в hdfs-site.xml здесь .Это связано с большими и лучшими емкостями и скоростью (HDD и SSD).Мы не должны удивляться, когда позже оно будет изменено на 256 МБ.

Проверьте этот комикс HDFS, чтобы получить краткий обзор HDFS.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...