HDFS - Размер блока и репликация для файлов размером 100 МБ каждую минуту - PullRequest
0 голосов
/ 19 апреля 2020

Как узнать наилучший размер блока для oop HDFS? Например, если у меня есть файлы с фиксированным размером 100 МБ каждую минуту, какой будет идеальный размер блока HDFS для хранения? 64MB? Должен ли я считать скорость хранения этого файла меньше 1 минуты? Как я мог рассчитать? И какой фактор репликации лучше всего использовать в этом случае, например? 2 или 3?

1 Ответ

0 голосов
/ 19 апреля 2020

Какой коэффициент репликации лучше всего использовать в этом случае, например? 2 или 3?

Зависит от того, насколько долговечны ваши диски / центр обработки данных.

Как узнать наилучший размер блока для oop HDFS?

Наилучший размер - это размер самого большого файла. Это не должно быть множителем 2

Стоит ли считать скорость хранения этого файла меньше 1 минуты?

Я бы посоветовал вам взглянуть на NiFi или Streamsets для предварительной агрегации и сжатия данных перед записью большого количества файлов размером 100 МБ каждую минуту. Кроме того, если это на самом деле 100 МБ открытого текста, по крайней мере, сначала конвертируйте в Avro или Parquet со сжатием Snappy

...