Question

Я пытаюсь рассчитать статистику для каждого числового поля.Но я застрял здесь, как исключить null при выполнении этой функции pyspark sql

new_df=data.select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line)])

Попробовал вот так, но выдает ошибку

new_df=data.select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line.na.fill(0))])

Sahil Desai · Answer 1 · 23 ноября 2018

Вы можете отфильтровать нулевые значения, используя условие where перед оператором select, с помощью функции isNotNull(), которая исключает нулевые значения.

new_df=data.where(data.line.isNotNull()).select([min(line).alias("Min"),max(line).alias("Max"),mean(line).alias("Mean"),stddev(line)])

Pyspark: Как исключить ненулевые записи столбца при вычислении pyspark sql функции?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Pyspark: Как исключить ненулевые записи столбца при вычислении pyspark sql функции?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы