столбец двойного типа, дающий ноль для не десятичных значений pyspark - PullRequest
0 голосов
/ 26 сентября 2019

Я пытаюсь найти среднее значение массива и сохраняю его в новом столбце в pyspark dataframe. Мой UDF возвращает doubleType.Массив имеет тип Int ... В среднем столбце отображается значение NULL, где среднее значение не является десятичным значением.

from pyspark.sql.types import DoubleType
def average(lst):
    if (len(lst)==0):
      return None
    else:
      return statistics.mean(lst)
average_udf = udf(average,DoubleType())


jointset2=df.selectExpr("x","y").filter("x='USER'").withColumn("x",average_udf("x"))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...