emax 07 февраля 2020 0

Pyspark: ошибка памяти при сохранении sql .dataframe

emax / 07 февраля 2020

У меня есть pyspark.sql.DataFrame, который я хотел бы сохранить как .csv. Это то, что я делаю.

df.toPandas().to_csv('myDF.csv')

Можно ли разбить данные на несколько частей и сохранить их как отдельные файлы?

1 Ответ

ishank shah / 07 февраля 2020

Вы можете добиться этого, используя ниже

df.repartition()
df.coalesce(<integer value to number of file you want>).write.csv()

, не конвертируйте фрейм данных spark в pandas, сохраняйте его напрямую в файл.

...