Вышеуказанный ответ верен, но результаты его использования не очень хороши.
Конечно, вы можете использовать repartition (1) или coalesce (1), но это приведет к передаче всех ваших данных одному работнику и значительно замедлит работу.вниз вашего кода.
Чтобы избежать этого, я бы посоветовал вам разбить данные на один из столбцов в наборе данных.А затем напишите простой код, чтобы получить один файл на раздел:
cols = ["$name"]
mpg_grp.repartition(cols).write.partitionBy(cols).csv("$location")
Таким образом, данные будут разделены между рабочими по одному из ваших столбцов, и вы получите ровно один файл на ваш раздел (по дате какпример).