PySpark: добавление новых строк для отсутствующих дат, сгруппированных по уникальному значению в другом столбце - PullRequest
0 голосов
/ 04 декабря 2018

У меня есть фрейм данных, который выглядит следующим образом:

date                 ID        Val
-------------------------------------
2017-09-01           1          2
2017-09-03           1          3
2017-09-05           1          4 
2017-09-05           2          1   
2017-09-07           2          2

То, что я хочу, выглядит примерно так:

date                 ID        Val
-------------------------------------
2017-09-01           1          2
2017-09-02           1          NULL
2017-09-03           1          3
2017-09-04           1          NULL
2017-09-05           1          4
2017-09-05           2          1   
2017-09-06           2          NULL
2017-09-07           2          2

Есть ли способ сделать это, не затрагиваязацикливание на уникальных идентификаторах, фильтрация, а затем сбор минимальных и максимальных дат?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...