Я хочу рассчитать среднее значение искры sql с помощью Python? - PullRequest
0 голосов
/ 16 мая 2019

показывает .count (), но неправильно .sum (), что мне делать?

код:

def meanTemperature(df,spark):
    counttemp=spark.sql("SELECT temperature  from washing").count()
    sumtemp=spark.sql("SELECT temperature from washing").sum()
    mean=sumtemp/counttemp
    return mean

Ошибка: AttributeError: у объекта 'DataFrame' нет атрибута 'sum'

1 Ответ

0 голосов
/ 19 мая 2019

Функция sum () недоступна в DataFrame, следовательно, ошибка. Вы можете использовать следующий фрагмент, чтобы найти среднее значение или медиану.

meanTemp = spark.sql("select mean(temperature,0.5) from washing")
return meanTemp.collect()[0][0] 

Если вы хотите медиану

medianTemp = spark.sql("select percentile_approx(temperature,0.5) from washing")
return medianTemp.collect()[0][0]
...