у меня есть такой фрейм данных:
-----------------------------------------------------------------
COL1 | COL2 | DATE1 | DATE2
-----------------------------------------------------------------
A | B | 2020-01-01 00:00:00 | 2020-01-01 00:00:00
B | B | 2020-01-01 00:00:00 | 2020-01-03 00:00:00
A | C | 2020-01-02 00:00:00 | 2020-01-01 00:00:00
B | B | 2020-01-01 00:00:00 | 2020-01-01 00:00:00
C | C | 2020-01-01 00:00:00 | 2020-01-01 00:00:00
B | C | 2020-01-01 00:00:00 | 2020-01-02 00:00:00
C | C | 2020-01-01 00:00:00 | 2020-01-03 00:00:00
И мне нужно отсортировать его по COL1 (направление здесь не имеет значения), DATE1 и DATE2 (но для дат мне нужно идти по убыванию) , ожидая такого результата:
-----------------------------------------------------------------
COL1 | COL2 | DATE1 | DATE2
-----------------------------------------------------------------
A | C | 2020-01-02 00:00:00 | 2020-01-01 00:00:00
A | B | 2020-01-01 00:00:00 | 2020-01-01 00:00:00
B | B | 2020-01-01 00:00:00 | 2020-01-03 00:00:00
B | C | 2020-01-01 00:00:00 | 2020-01-02 00:00:00
B | B | 2020-01-01 00:00:00 | 2020-01-01 00:00:00
C | C | 2020-01-01 00:00:00 | 2020-01-03 00:00:00
C | C | 2020-01-01 00:00:00 | 2020-01-01 00:00:00
Я знаю, что могу работать с dataframe.sort (col ("COL1"). as c, col ("DATE1"). des c. .. Но я думаю, что если я запущу его как RDD, он будет работать лучше всего, я сомневаюсь ... А как RDD лучше запустить? Как мне так бегать?