Входной DF:
id . sub_id . id_created . id_last_modified sub_id_created . lead_
1 . 10 12:00 7:00 12:00 . 1:00
1 . 20 . 12:00 7:00 1:00 . 2:30
1 . 30 . 12:00 7:00 2:30 . 7:00
1 . 40 12:00 7:05 7:00 null
Вариант использования, я пытаюсь создать новую_колонку "time", где:
1. For: (id, max(sub_id)) : id_last_modified - sub_id_created
2. otherwise: sub_id_created - lead_
Код:
window = Window.partitionBy("id").orderBy("sub_id")
Я получаю ожидаемую операцию для всех строк, кроме комбинации:
(id, max(sub_id))
за который я получаю ноль
Любые предложения о том, где я иду не так, будут полезны. Спасибо.