У меня есть датафрейм как:
+--------------+-----------------+-------------------+
| ecid| creation_user| creation_timestamp|
+--------------+-----------------+-------------------+
|ECID-195000300|USER_ID1 |2018-08-31 20:00:00|
|ECID-195000300|USER_ID2 |2016-08-31 20:00:00|
Мне нужно иметь строку с самой ранней меткой времени как:
+--------------+-----------------+-------------------+
| ecid| creation_user| creation_timestamp|
+--------------+-----------------+-------------------+
|ECID-195000300|USER_ID2 |2016-08-31 20:00:00|
Как я могу получить это в pyspark: Я пытался
df.groupBy("ecid").agg(min("creation_timestamp"))
Однако я только получаю поле ecid и timestamp. Я хочу, чтобы все поля, а не только два поля