Я сталкиваюсь с этой проблемой: у меня сложный формат даты, представленный в виде строки.Поэтому я использую функцию unix_timestamp для ее анализа.
Однако я не могу найти подходящий шаблон для использования.Я не знаю правильных сокращений для часового пояса, дня недели и месяца, и я не нашел ни одной ссылки, чтобы уточнить их.
from pyspark.sql.functions import unix_timestamp
d = spark.createDataFrame([(1,"Mon Jan 14 11:43:20 EET 2019"),\
(2,"Wed Jun 27 16:26:46 EEST 2018")],\
["id","time_str"])
pattern = "aaa bbb dd HH:mm:ss ZZZ yyyy"
d= d.withColumn("timestampCol", unix_timestamp(d["time_str"], pattern).cast("timestamp"))
d.show()
>>>
+---+------------------------------+------------+
|id |time_str |timestampCol|
+---+------------------------------+------------+
|1 |Mon Jan 14 11:43:20 EET 2019 |null |
|2 |Wed Jun 27 16:26:46 EEST 2018 |null |
+---+------------------------------+------------+
Знает ли Somenone, как правильно преобразовать эту строку в метки времени?