Устройство записи паркета не касается размера блока HDFS, так как вы можете сохранить паркет, например. на локальном жестком диске. Что определяет количество и размеры отдельной детали - *. Parquet files - это количество секций в вашем фрейме данных (64 в вашем случае). Если вы сделаете df.coalesce(1).write.parquet(...)
, у вас будет только один большой файл детали.
Если вы хотите, чтобы файлы деталей имели размер около 128 МБ каждый, параметр coalesce должен быть около 20 * 64/128 = 10. Хотя размер файла детали для заданного количества зависимостей объединенных секций не является строго линейным. Чем меньше количество файлов деталей, тем эффективнее кодирование / сжатие.
См. coalesce Описание метода для деталей