Pyspark: ошибка памяти при сохранении sql .dataframe - PullRequest
0 голосов
/ 07 февраля 2020

У меня есть pyspark.sql.DataFrame, который я хотел бы сохранить как .csv. Это то, что я делаю.

df.toPandas().to_csv('myDF.csv')

Можно ли разбить данные на несколько частей и сохранить их как отдельные файлы?

1 Ответ

0 голосов
/ 07 февраля 2020

Вы можете добиться этого, используя ниже

df.repartition()
df.coalesce(<integer value to number of file you want>).write.csv()

, не конвертируйте фрейм данных spark в pandas, сохраняйте его напрямую в файл.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...