Я новый пользователь Pyspark.У меня есть опыт работы с реляционными базами данных (sql).Я хотел понять, почему следующая агрегация не работает в PySpark, в то время как аналогичный sql-запрос работает нормально.
ssn.select(col("gender"),col("ssn_first_name"),max(col("total")),col("year"))
.groupBy(col("gender"),col("ssn_first_name"),col("year"))
Я пытаюсь получить максимум общего столбца.Таблица имеет 4 столбца ** (пол, имя, общее количество и год) **.
Ошибка: -
AnalysisException: «последовательность группировки выражений равнапусто, а 'databricks.ssanames. gender
' не является агрегатной функцией.