Столбец Pyspark: преобразовать строку в тип даты - PullRequest
2 голосов
/ 13 апреля 2020

Я пытаюсь преобразовать столбец pyspark типа строки в тип даты, как показано ниже.

**Date**
31 Mar 2020
2  Apr 2020
29 Jan 2019
8  Sep 2109

Требуется вывод:

31-03-2020
02-04-2020
29-01-2019
08-04-2109  

Спасибо.

Ответы [ 2 ]

1 голос
/ 13 апреля 2020

Для функции to_date потребуется несколько дней как 02 или ' 2' вместо 2. Следовательно, мы можем использовать regex для удаления пробелов, а затем, где length строки: less than max(9) , мы можем добавить 0 to the start строки. Затем мы можем применить to_date и использовать его для извлечения других ваших столбцов (день, месяц, год). Можно также использовать date_format, чтобы сохранить дату в указанном формате .

df.show()#sample df
+-----------+
|       Date|
+-----------+
|31 Mar 2020|
|2  Apr 2020|
|29 Jan 2019|
|8  Sep 2019|
+-----------+

from pyspark.sql import functions as F    
df.withColumn("regex", F.regexp_replace("Date","\ ",""))\
  .withColumn("Date", F.when(F.length("regex")<9, F.concat(F.lit(0),F.col("regex")))\
              .otherwise(F.col("regex"))).drop("regex")\
  .withColumn("Date", F.to_date("Date",'ddMMMyyyy'))\
  .withColumn("Year", F.year("Date"))\
  .withColumn("Month",F.month("Date"))\
  .withColumn("Day", F.dayofmonth("Date"))\
  .withColumn("Date_Format2", F.date_format("Date", 'dd-MM-yyyy'))\
  .show()

#output
+----------+----+-----+---+------------+
|      Date|Year|Month|Day|Date_Format2|
+----------+----+-----+---+------------+
|2020-03-31|2020|    3| 31|  31-03-2020|
|2020-04-02|2020|    4|  2|  02-04-2020|
|2019-01-29|2019|    1| 29|  29-01-2019|
|2019-09-08|2019|    9|  8|  08-09-2019|
+----------+----+-----+---+------------+
1 голос
/ 13 апреля 2020

Вы можете использовать dayofmonth,year,month (или) date_format() (или) from_unixtime(unix_timestamp()) во встроенных функциях для этого случая.

Example:

#sample data
df=spark.createDataFrame([("31 Mar 2020",),("2 Apr 2020",),("29 Jan 2019",)],["Date"])
#DataFrame[Date: string]
df.show()
#+-----------+
#|       Date|
#+-----------+
#|31 Mar 2020|
#| 2 Apr 2020|
#|29 Jan 2019|
#+-----------+

from pyspark.sql.functions import *

df.withColumn("new_dt", to_date(col("Date"),"dd MMM yyyy")).\
withColumn("year",year(col("new_dt"))).\
withColumn("month",month(col("new_dt"))).\
withColumn("day",dayofmonth(col("new_dt"))).\
show()

#+-----------+----------+----+-----+---+
#|       Date|    new_dt|year|month|day|
#+-----------+----------+----+-----+---+
#|31 Mar 2020|2020-03-31|2020|    3| 31|
#| 2 Apr 2020|2020-04-02|2020|    4|  2|
#|29 Jan 2019|2019-01-29|2019|    1| 29|
#+-----------+----------+----+-----+---+

#using date_format
df.withColumn("new_dt", to_date(col("Date"),"dd MMM yyyy")).\
withColumn("year",date_format(col("new_dt"),"yyyy")).\
withColumn("month",date_format(col("new_dt"),"MM")).\
withColumn("day",date_format(col("new_dt"),"dd")).show()

#+-----------+----------+----+-----+---+
#|       Date|    new_dt|year|month|day|
#+-----------+----------+----+-----+---+
#|31 Mar 2020|2020-03-31|2020|   03| 31|
#| 2 Apr 2020|2020-04-02|2020|   04| 02|
#|29 Jan 2019|2019-01-29|2019|   01| 29|
#+-----------+----------+----+-----+---+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...