Какой коэффициент репликации лучше всего использовать в этом случае, например? 2 или 3?
Зависит от того, насколько долговечны ваши диски / центр обработки данных.
Как узнать наилучший размер блока для oop HDFS?
Наилучший размер - это размер самого большого файла. Это не должно быть множителем 2
Стоит ли считать скорость хранения этого файла меньше 1 минуты?
Я бы посоветовал вам взглянуть на NiFi или Streamsets для предварительной агрегации и сжатия данных перед записью большого количества файлов размером 100 МБ каждую минуту. Кроме того, если это на самом деле 100 МБ открытого текста, по крайней мере, сначала конвертируйте в Avro или Parquet со сжатием Snappy