Я очень новичок в pyspark.
У меня есть фрейм данных pyspark со столбцами ID
и BALANCE
.
Я пытаюсь объединить столбец balance
в 100-процентные (1-100%) сегменты и рассчитать, сколько идентификаторов приходится на каждый сегмент.
Я не могу использовать что-либо, связанное с RDD, я могу использовать только синтаксис Pyspark. Я попробовал код ниже
w = Window.orderBy(df.BALANCE)
test = df.withColumn('percentile_col',F.percent_rank().over(w))
Я надеюсь получить новый столбец, который автоматически вычисляет процентиль каждой точки данных в столбце BALANCE и игнорирует пропущенное значение.