SQL Spark - Группировать записи временных меток по дате, месяцу и году - PullRequest
0 голосов
/ 25 мая 2020

У меня есть фрейм данных, который выглядит следующим образом:

2019-04-17T17:21:00.963+0000    300
2019-04-17T17:21:21.000+0000    194
2019-04-17T17:21:30.096+0000    104
2019-04-17T17:22:00.243+0000    299
2019-04-17T17:22:20.290+0000    222
2019-04-17T17:22:30.376+0000    76
2019-04-17T17:22:50.570+0000    298
2019-04-17T17:23:20.760+0000    298

Я хотел бы сгруппировать эти временные метки по дню, месяцу и году и создать абстракцию для часа / минуты.

query="""
SELECT day(InsertDate) as day,
month(InsertDate) as month,
year(InsertDate) as year,
count(ItemLogID) as value
FROM db_ods_aesbhist.ItemLogMessageInbox
group by day, month, year
ORDER BY value DESC
"""

df_input=spark.sql(query).toPandas().set_index()
display(df_input)

Я придумал это, но он генерирует три столбца, и я хотел бы продолжать использовать дату в качестве ключа.

Есть идеи, как это сделать?

1 Ответ

0 голосов
/ 25 мая 2020

Только что выяснил, что to_date() помогает.

Пометка как решенная!

...