Опции SparkSQL для различных источников данных можно найти в документации DataFrameWriter
(в Scala или pyspark docs). Источник данных для записи parquet
, кажется, принимает только параметр compression
. Для опций SparkSQL при чтении данных загляните в класс DataFrameReader
.
Чтобы контролировать размер ваших выходных файлов, вы должны играть с параллелизмом - как прокомментировал @Yuri Bondaruk - используя, например, функцию coalesc
.