Мои данные находятся в фрейме данных pyspark ('pyspark.sql.dataframe.DataFrame').В одном из столбцов дата хранится в формате строки Twitter.
Я нашел пару решений для python, но для pyspark нет конкретного решения.
Вот так выглядит столбец.
+------------------------------+----+
|created_at(string format) |date|
+------------------------------+----+
|Tue Mar 26 02:29:54 +0000 2019|null|
|Tue Mar 26 02:29:54 +0000 2019|null|
|Tue Mar 26 02:29:54 +0000 2019|null|
|Tue Mar 26 02:29:54 +0000 2019|null|
|Tue Mar 26 02:29:54 +0000 2019|null|
+------------------------------+----+
Я попробовал следующее решение, но оно не сработало
date_df = df.select('created_at', from_unixtime(unix_timestamp('created_at', '%a %b %d %H:%M:%S %z %Y')).alias('date'))
Мне нужно преобразовать столбец в искровой тип даты / времени, чтобы я мог выполнить другие даты и времяОперации spark.sql поверх него.