Вы можете добавить новый столбец с именем "Sentence
", как показано ниже, и преобразовать его в читаемый формат, используя функцию concat
. Я также записываю df в файл, если вы хотите его в файл CSV.
>>> from pyspark.sql.functions import *
>>> df.show()
+-----+---------+---+----+
|fname| lname|age|dept|
+-----+---------+---+----+
| Jack| Felice | 25| IT|
| Mike| Gilbert | 30| CS|
| John| Shen| 45| DR|
+-----+---------+---+----+
>>> df1 = df.withColumn("sentence", concat( col("fname"), lit(" "), col("lname"), lit("is "), col("age"), lit(" year's old and he works in a "), col("dept"), lit(" department."))).select("sentence")
>>> df1.show(10,False)
+---------------------------------------------------------------+
|sentence |
+---------------------------------------------------------------+
|Jack Felice is 25 year's old and he works in a IT department. |
|Mike Gilbert is 30 year's old and he works in a CS department.|
|John Shenis 45 year's old and he works in a DR department. |
+---------------------------------------------------------------+
>>> df1.write.format("csv").option("header", "true").save("/out/")
Выход CSV