Я пытаюсь найти среднее значение массива и сохраняю его в новом столбце в pyspark dataframe. Мой UDF возвращает doubleType.Массив имеет тип Int ... В среднем столбце отображается значение NULL, где среднее значение не является десятичным значением.
from pyspark.sql.types import DoubleType
def average(lst):
if (len(lst)==0):
return None
else:
return statistics.mean(lst)
average_udf = udf(average,DoubleType())
jointset2=df.selectExpr("x","y").filter("x='USER'").withColumn("x",average_udf("x"))