Предположим, у меня есть фрейм данных Pyspark с двумя столбцами: ID, зарплата.Фрейм данных имеет 100 миллионов записей.Я хотел бы заменить зарплату столбца на порядок ранга столбца.В столбце rank-order подсчитано, сколько людей с зарплатой ниже.Как сделать это эффективно
Например, с учетом следующего входного кадра данных:
df = spark.createDataFrame([(1,2000),
(2,500),
(3,1500)],
['id','salary'])
df.show()
+---+------+
| id|salary|
+---+------+
| 1| 2000|
| 2| 500|
| 3| 1500|
+---+------+
Я бы получил следующий вывод:
results.show()
+---+----------+
| id|rank_order|
+---+----------+
| 1| 2|
| 2| 0|
| 3| 1|
+---+----------+