У меня нет опыта работы с pyspark, и я пытаюсь запустить следующее:
avg18 = spark.sql("SELECT AVG(age) FROM df5 WHERE age BETWEEN 18 AND 30")
и получаю этот вывод
DataFrame[avg(CAST(age AS DOUBLE)): double]
Я уже изменил (или попробовал)dataType, printScheme
показывает возраст как целое число.
Я пытаюсь получить среднее значение этой группы в конкретных и использовать выходные данные для замены NA.