Как сохранить вывод DataFrame в PySpark в TextFile? - PullRequest
0 голосов
/ 11 октября 2018

У меня есть DataFrame (таблица) ниже, и я использую функцию суммы в столбцах _3 и _4.

df.show()
+---------+------+---+---+
|       _1|    _2| _3| _4|
+---------+------+---+---+
| playerID|yearID| HR|RBI|
|aardsda01|  2004|  0|  0|
|aardsda01|  2006|  0|  0|
|aardsda01|  2007|  0|  0|
|aardsda01|  2008|  0|  0|
|aardsda01|  2009|  0|  0|
|aardsda01|  2010|  0|  0|
|aaronha01|  1954| 13| 69|
|aaronha01|  1955| 27|106|
|aaronha01|  1956| 26| 92|
|aaronha01|  1957| 44|132|
|aaronha01|  1958| 30| 95|
|aaronha01|  1959| 39|123|
|aaronha01|  1960| 40|126|
|aaronha01|  1961| 34|120|
|aaronha01|  1962| 45|128|
|aaronha01|  1963| 44|130|
|aaronha01|  1964| 24| 95|
|aaronha01|  1965| 32| 89|
|aaronha01|  1966| 44|127|
+---------+------+---+---+
only showing top 20 rows

Я хочу сохранить выходные данные следующего в TextFile.

df.agg({'_3':'sum','_4':'sum'}).show()
+--------+---------+                                                            
| sum(_3)|  sum(_4)|
+--------+---------+
|264983.0|1642662.0|

1 Ответ

0 голосов
/ 12 октября 2018

Этот вопрос является дубликатом.

Вы можете использовать формат блоков данных для сохранения вывода в виде текстового файла:

myDF.write.format("com.databricks.spark.csv").option("header", "true").save("output.csv")

В вашем случае вы можете использовать:

df.agg({'_3':'sum','_4':'sum'}).write.format("com.databricks.spark.csv").option("header", "true").save("output.csv")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...