Pyspark: Как исключить ненулевые записи столбца при вычислении pyspark sql функции? - PullRequest
0 голосов
/ 22 ноября 2018

Я пытаюсь рассчитать статистику для каждого числового поля.Но я застрял здесь, как исключить null при выполнении этой функции pyspark sql

new_df=data.select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line)])

Попробовал вот так, но выдает ошибку

new_df=data.select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line.na.fill(0))])

1 Ответ

0 голосов
/ 23 ноября 2018

Вы можете отфильтровать нулевые значения, используя условие where перед оператором select, с помощью функции isNotNull(), которая исключает нулевые значения.

new_df=data.where(data.line.isNotNull()).select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line)])
...