Список функций агрегирования в Spark SQL - PullRequest
0 голосов
/ 04 октября 2018

Я ищу список предопределенных функций агрегирования в Spark SQL.Я имею в виду нечто, аналогичное Агрегатным функциям Presto .

I Ctrl + F , немного разбросанное в SQLAPI документирует безрезультатно ... также сложно определить, какие функции предназначены для агрегации, а какие нет.Например, если бы я не знал, что avg - это функция агрегации, мне было бы трудно сказать, что она одна (в некотором смысле это масштабируется до полного набора функций):

avg - avg(expr) - возвращает среднее значение, рассчитанное по значениям группы.

Если такого списка не существует, может кто-нибудь хотя бы подтвердить мне, что предварительно не определенофункция типа any / bool_or или all / bool_and, чтобы определить, является ли какой-либо или все столбцы boolean в группе true (или false)?

Длятеперь мой обходной путь -

select grp_col, count(if(bool_col, true, NULL)) > 0 any_agg

Ответы [ 2 ]

0 голосов
/ 30 июня 2019

Список функций находится здесь под Relational Grouped Dataset - в частности, API, которые возвращают DataFrame ( не RelationalGroupedDataSet):

https://spark.apache.org/docs/latest/api/scala/index.html?org/apache/spark/sql/RelationalGroupedDataset.html#org.apache.spark.sql.RelationalGroupedDataset

enter image description here

0 голосов
/ 04 октября 2018

Просто взгляните на Spark Docs в Aggregate functions секции

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...