Как создать дату из года, месяца и дня в pyspark - PullRequest
0 голосов
/ 31 марта 2020

У меня есть три столбца о годе, месяце и дне. Как я могу использовать их для создания даты в pyspark?

Ответы [ 2 ]

1 голос
/ 31 марта 2020

Вы можете использовать concat_ws() для объединения столбцов с - и приведением к дате.

#sampledata
df.show()

#+----+-----+---+
#|year|month|day|
#+----+-----+---+
#|2020|   12| 12|
#+----+-----+---+
from pyspark.sql.functions import *

df.withColumn("date",concat_ws("-",col("year"),col("month"),col("day")).cast("date")).show()
+----+-----+---+----------+
|year|month|day|      date|
+----+-----+---+----------+
|2020|   12| 12|2020-12-12|
+----+-----+---+----------+

#dynamic way
cols=["year","month","day"]
df.withColumn("date",concat_ws("-",*cols).cast("date")).show()
#+----+-----+---+----------+
#|year|month|day|      date|
#+----+-----+---+----------+
#|2020|   12| 12|2020-12-12|
#+----+-----+---+----------+

#using date_format,to_timestamp,from_unixtime(unix_timestamp) functions

df.withColumn("date",date_format(concat_ws("-",*cols),"yyyy-MM-dd").cast("date")).show()
df.withColumn("date",to_timestamp(concat_ws("-",*cols),"yyyy-MM-dd").cast("date")).show()
df.withColumn("date",to_date(concat_ws("-",*cols),"yyyy-MM-dd")).show()
df.withColumn("date",from_unixtime(unix_timestamp(concat_ws("-",*cols),"yyyy-MM-dd"),"yyyy-MM-dd").cast("date")).show()
#+----+-----+---+----------+
#|year|month|day|      date|
#+----+-----+---+----------+
#|2020|   12| 12|2020-12-12|
#+----+-----+---+----------+
0 голосов
/ 31 марта 2020

Вы можете использовать strptime для преобразования из строк в объект даты и времени, например

from datetime import datetime

datetime_str = '31/03/20' # or, f'{day}/{month}/{year}'

datetime_object = datetime.strptime(datetime_str, '%m/%d/%y')
...