Функция для расчета частоты данных в пострессе - PullRequest
0 голосов
/ 19 мая 2018

Я хочу рассчитать среднее значение, стандартное отклонение, процентили (25,50,75) для числовых переменных, частоты для категориальных переменных и частоты NULL для категориальных и числовых переменных по месяцам. Ниже приведены только данные выборки.как 20 + столбцы и 15k + записи. Я хотел бы иметь функции для выполнения.

    Date          id  score_n  score_p  score_s  Reason 

 31-12-2016       1   0.5       6      5.0      energy_drink
 31-12-2016       4     6       3       3       soft_drink
 31-12-2016       5     3       4       2       energy_drink

1 Ответ

0 голосов
/ 19 мая 2018

Идея такова:

select date_trunc('month', date) as yyyymm,
       avg(score_n) as avg, stddev(score_n),
       percentile_cont(0.25) within group (order by score_n),
       percentile_cont(0.50) within group (order by score_n),
       percentile_cont(0.75) within group (order by score_n)
from t
group by date_trunc('month', date);

Функции агрегирования можно просмотреть в документации .

...