У меня проблемы с извлечением времени и даты из метки времени. Данные читаются в виде строки, поэтому я увидел, что люди могут использовать date_format
, чтобы по существу преобразовать их в нужный нам формат. Вот что я попробовал ниже
import pyspark.sql.functions as F
from pyspark.sql.functions import date_format
data = df_data.select(date_format(F.col("timestamp"),"MM/d/yy").alias("date"),
date_format(F.col("timestamp"),"HH:mm").alias("time"),
date_format(F.col("timestamp"), "M/d/yy").alias("current_date_formated")).show(10)
Мои входные данные выглядят так:
timestamp
11/9/18 14:11
11/9/18 14:27
11/9/18 14:42
11/9/18 14:57
Вывод моего кода выше выводится как под моим date
и time
псевдонимом возвращает строки null
. Я также пытался использовать to_date
, но тоже не работал
import pyspark.sql.functions as F
data = df_data.select(date_format(F.col("timestamp"),"MM/d/yy").alias("date"),
F.to_date(F.col("timestamp"),"HH:mm").alias("time"),
F.to_date(F.col("timestamp"), "M/d/yy").alias("current_date_formated")).show(10)