Рассчитать процентили в столбце фрейма данных pyspark, игнорируя пропущенное значение - PullRequest
0 голосов
/ 11 июля 2019

Я очень новичок в pyspark. У меня есть фрейм данных pyspark со столбцами ID и BALANCE. Я пытаюсь объединить столбец balance в 100-процентные (1-100%) сегменты и рассчитать, сколько идентификаторов приходится на каждый сегмент.

Я не могу использовать что-либо, связанное с RDD, я могу использовать только синтаксис Pyspark. Я попробовал код ниже

w = Window.orderBy(df.BALANCE)
test = df.withColumn('percentile_col',F.percent_rank().over(w))

Я надеюсь получить новый столбец, который автоматически вычисляет процентиль каждой точки данных в столбце BALANCE и игнорирует пропущенное значение.

1 Ответ

0 голосов
/ 11 июля 2019

Попробуй это.Сначала мы проверяем, имеет ли столбец df.Balance значения Null.Если он имеет значения Null, мы отображаем None.Иначе применяется функция процента_кран ().

из pyspark.sql импортирует функции как F

w = Window.orderBy (df.BALANCE)

test = df.withColumn ('Pertile_col', когда (df.BALANCE.isNull (), горит (нет)). В противном случае (F.percent_rank (). Over (w)))

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...