Как отформатировать дату в Spark SQL? - PullRequest
0 голосов
/ 09 ноября 2019

Мне нужно преобразовать данный формат даты: 2019-10-22 00:00:00 в этот: 2019-10-22T00:00:00.000Z

Я знаю, что это можно сделать в некоторых БД с помощью:

В AWS Redshift выможно достичь этого с помощью следующего: TO_DATE('{RUN_DATE_YYYY/MM/DD}', 'YYYY/MM/DD') || 'T00:00:00.000Z' AS VERSION_TIME

Но моя платформа - Spark SQL, поэтому ни один из двух вариантов не работает для меня, лучшее, что я мог бы получить, это использовать

concat(d2.VERSION_TIME, 'T00:00:00.000Z') as VERSION_TIME

что немного хакерски, но все же не совсем правильно, с этим я получил такой формат даты:

2019-10-25 00:00:00T00:00:00.000Z,

но эта часть 00:00:00 посерединеэтой строки избыточно, и я не могу оставить ее там.

Любой, кто имеет здесь какое-либо понимание, будет с благодарностью признателен!

Ответы [ 2 ]

1 голос
/ 09 ноября 2019

Я думаю, это естественный способ.

spark.sql("""SELECT date_format(to_timestamp("2019-10-22 00:00:00", "yyyy-MM-dd HH:mm:ss"), "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'") as date""").show(false)

Результат:

+------------------------+
|date                    |
+------------------------+
|2019-10-22T00:00:00.000Z|
+------------------------+
0 голосов
/ 09 ноября 2019

Может как то так? Это немного другой подход.

scala> val df = spark.range(1).select(current_date.as("date"))
scala> df.show()
+----------+
|      date|
+----------+
|2019-11-09|
+----------+

scala> 

df.withColumn("formatted",
    concat(
    regexp_replace(date_format('date,"yyyy-MM-dd\tHH:mm:ss.SSS"),"\t","T"),
    lit("Z")
    )
).show(false)

+----------+------------------------+
|date      |formatted               |
+----------+------------------------+
|2019-11-09|2019-11-09T00:00:00.000Z|
+----------+------------------------+
...