Чтение CSV-файлов, а затем запись в паркет. Можно ли сохранить 128 МБ паркетных блоков?
Мой текущий код:
filtredDf
.repartition(96, "mypart")
.write
.option("compression", "snappy")
.option("parquet.block.size", 32 * 1024 * 1024)
.mode(SaveMode.Append)
.partitionBy("mypart")
.parquet(targetDirectory)
parquet.block.size неКажется, что-то влияет.При каждом запуске создается один файл паркета.Насколько я понимаю, я должен поиграть с .repartition и .coalesce, чтобы определить количество созданных файлов, но это предполагает, что я знаю размер данных, которые я пишу ...
Что такое хорошая практикас этим?