Настраиваемый порядок сортировки в массиве данных / наборе данных spark - PullRequest
0 голосов
/ 28 января 2020

У меня есть веб-сервис, построенный на основе spark, который на основе запроса JSON создает серию операций с кадрами / наборами данных.

Эти операции включают в себя несколько объединений, фильтров и т. Д. c, которые изменить порядок значений в столбцах. Этот окончательный набор данных может иметь строки в масштабе миллионов.

Желательно без преобразования его в СДР, есть ли возможность применить пользовательскую сортировку (и) к некоторым столбцам окончательного набора данных на основе порядка элементы, переданные в виде списков?

Исходный фрейм данных имеет вид

+----------+----------+
| Column 1 | Column 2 |
+----------+----------+
| Val 1    | val a    |
+----------+----------+
| Val 2    | val b    |
+----------+----------+
| val 3    | val c    |
+----------+----------+

После выполнения серии преобразований фрейм данных выглядит следующим образом.

+----------+----------+----------+----------+
| Column 1 | Column 2 | Column 3 | Column 4 |
+----------+----------+----------+----------+
| Val 2    | val b    | val 999  | val 900  |
+----------+----------+----------+----------+
| Val 1    | val c    | val 100  | val 9$#@ |
+----------+----------+----------+----------+
| val 3    | val a    | val 2##  | val $#@8 |
+----------+----------+----------+----------+

Теперь мне нужно применить сортировку к нескольким столбцам в зависимости от порядка значений, переданных в виде списка Array. Например. Порядок значений Col1 = [val 1, val 3, val 2} Порядок значений Col3 = [100,2 ##, 999].

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...