Сортировка DataFrame на Spark Scala (1.6.3) - PullRequest
0 голосов
/ 04 августа 2020

у меня есть такой фрейм данных:

-----------------------------------------------------------------
COL1    | COL2  | DATE1                 | DATE2
-----------------------------------------------------------------
A       | B     | 2020-01-01 00:00:00   | 2020-01-01 00:00:00
B       | B     | 2020-01-01 00:00:00   | 2020-01-03 00:00:00
A       | C     | 2020-01-02 00:00:00   | 2020-01-01 00:00:00
B       | B     | 2020-01-01 00:00:00   | 2020-01-01 00:00:00
C       | C     | 2020-01-01 00:00:00   | 2020-01-01 00:00:00
B       | C     | 2020-01-01 00:00:00   | 2020-01-02 00:00:00
C       | C     | 2020-01-01 00:00:00   | 2020-01-03 00:00:00

И мне нужно отсортировать его по COL1 (направление здесь не имеет значения), DATE1 и DATE2 (но для дат мне нужно идти по убыванию) , ожидая такого результата:

-----------------------------------------------------------------
COL1    | COL2  | DATE1                 | DATE2
-----------------------------------------------------------------
A       | C     | 2020-01-02 00:00:00   | 2020-01-01 00:00:00
A       | B     | 2020-01-01 00:00:00   | 2020-01-01 00:00:00
B       | B     | 2020-01-01 00:00:00   | 2020-01-03 00:00:00
B       | C     | 2020-01-01 00:00:00   | 2020-01-02 00:00:00
B       | B     | 2020-01-01 00:00:00   | 2020-01-01 00:00:00
C       | C     | 2020-01-01 00:00:00   | 2020-01-03 00:00:00
C       | C     | 2020-01-01 00:00:00   | 2020-01-01 00:00:00

Я знаю, что могу работать с dataframe.sort (col ("COL1"). as c, col ("DATE1"). des c. .. Но я думаю, что если я запущу его как RDD, он будет работать лучше всего, я сомневаюсь ... А как RDD лучше запустить? Как мне так бегать?

...