DF:
ID col1 . .....coln.... Date
1 1991-01-11 11:03:46.0
1 1991-01-11 11:03:46.0
1 1991-02-22 12:05:58.0
1 1991-02-22 12:05:58.0
1 1991-02-22 12:05:58.0
Я создаю новый столбец «идентификатор», чтобы найти раздел (ID, ДАТА) и выбрать самую верхнюю комбинацию с упорядочением по «идентификатор»
Ожидаемый DF:
ID col1 . .....coln.... Date . identify
1 1991-01-11 11:03:46.0 . 1
1 1991-01-11 11:03:46.0 1
1 1991-02-22 12:05:58.0 . 2
1 1991-02-22 12:05:58.0 . 2
1 1991-02-22 12:05:58.0 . 2
Код пробовал 1:
var window = Window.partitionBy("ID").orderBy("DATE")
df = df.orderBy($"DATE").withColumn("identify", row_number().over(window))
Мой ОП:
ID col1 . .....coln.... Date . identify
1 1991-01-11 11:03:46.0 . 1
1 1991-01-11 11:03:46.0 2
1 1991-02-22 12:05:58.0 . 3
1 1991-02-22 12:05:58.0 . 4
1 1991-02-22 12:05:58.0 . 5
Код пробовал 2:
var window = Window.partitionBy("ID","DATE").orderBy("DATE")
df = df.orderBy($"DATE").withColumn("identify", row_number().over(window))
Мой ОП:
ID col1 . .....coln.... Date . identify
1 1991-01-11 11:03:46.0 . 1
1 1991-01-11 11:03:46.0 2
1 1991-02-22 12:05:58.0 . 1
1 1991-02-22 12:05:58.0 . 2
1 1991-02-22 12:05:58.0 . 3
Любые предложения о том, как настроить код для получения необходимого ОП, будут полезны