Как сохранить DataFrame в CSV Pyspark - PullRequest
0 голосов
/ 03 марта 2020

Я пытаюсь сохранить данные в систему hdfs. Он сохраняется как часть-0000 и на несколько частей. Я хочу сохранить его как лист Excel или только один файл детали? Как мы можем достичь этого?

код, используемый до сих пор:

  df1.write.csv('/user/gtree/tree.csv')

1 Ответ

0 голосов
/ 03 марта 2020

Ваш фрейм данных сохраняется на основе его разделов (несколько разделов = несколько файлов). Вы можете объединить или уменьшить количество разделов до 1, чтобы можно было записать только 1 файл.

Ссылка: https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark. sql .DataFrame.coalesce

df1.coalesce(1).write.csv('/user/gtree/tree.csv')
...