У меня есть pyspark.sql.DataFrame, который я хотел бы сохранить как .csv. Это то, что я делаю.
pyspark.sql.DataFrame
.csv
df.toPandas().to_csv('myDF.csv')
Можно ли разбить данные на несколько частей и сохранить их как отдельные файлы?
Вы можете добиться этого, используя ниже
df.repartition() df.coalesce(<integer value to number of file you want>).write.csv()
, не конвертируйте фрейм данных spark в pandas, сохраняйте его напрямую в файл.