базовая агрегация в Писпарке - PullRequest
0 голосов
/ 27 июня 2019

Я новый пользователь Pyspark.У меня есть опыт работы с реляционными базами данных (sql).Я хотел понять, почему следующая агрегация не работает в PySpark, в то время как аналогичный sql-запрос работает нормально.

ssn.select(col("gender"),col("ssn_first_name"),max(col("total")),col("year"))
   .groupBy(col("gender"),col("ssn_first_name"),col("year"))  

Я пытаюсь получить максимум общего столбца.Таблица имеет 4 столбца ** (пол, имя, общее количество и год) **.

Ошибка: -

AnalysisException: «последовательность группировки выражений равнапусто, а 'databricks.ssanames. gender' не является агрегатной функцией.

...