Как преобразовать данные табличного формата в предложение или читаемый формат с помощью Pyspark? - PullRequest

1 Ответ

0 голосов
/ 17 марта 2020

Вы можете добавить новый столбец с именем "Sentence", как показано ниже, и преобразовать его в читаемый формат, используя функцию concat. Я также записываю df в файл, если вы хотите его в файл CSV.

>>> from pyspark.sql.functions import *
>>> df.show()
+-----+---------+---+----+
|fname|    lname|age|dept|
+-----+---------+---+----+
| Jack|  Felice | 25|  IT|
| Mike| Gilbert | 30|  CS|
| John|     Shen| 45|  DR|
+-----+---------+---+----+

>>> df1 = df.withColumn("sentence", concat( col("fname"), lit(" "), col("lname"), lit("is "), col("age"), lit(" year's old and he works in a "), col("dept"), lit(" department."))).select("sentence")
>>> df1.show(10,False)
+---------------------------------------------------------------+
|sentence                                                       |
+---------------------------------------------------------------+
|Jack Felice is 25 year's old and he works in a IT department.  |
|Mike  Gilbert is 30 year's old and he works in a CS department.|
|John Shenis 45 year's old and he works in a DR department.     |
+---------------------------------------------------------------+

>>> df1.write.format("csv").option("header", "true").save("/out/")

Выход CSV

enter image description here

...