Question

У меня есть набор данных, содержащий «UI» (уникальный идентификатор), время, частоту (частоту для заданного значения в столбце UI), как показано здесь:

Что бы я хотел добавить в новый столбец с именем daily_frequency, который просто подсчитывает каждое уникальное значение в столбце пользовательского интерфейса для данного дня последовательно, как показано на рисунке ниже.

Например, если UI = 114737, и это повторяется 2 раза в один день, у нас должно быть 1 и 2 в столбце daily_frequency.

Я мог бы сделать это с помощью пакетов Python и Panda, используя методы group by и cumcount следующим образом ...

df['daily_frequency'] = df.groupby(['UI','day']).cumcount()+1

Однако по какой-то причине Я должен сделать это с помощью SQL-запросов (Amazon Redshift) .

Salman A · Answer 1 · 05 июля 2019

Я думаю, что вы хотите получить счетчик, который можно рассчитать как:

COUNT(*) OVER (PARTITION BY ui, TRUNC(time) ORDER BY time
               ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS daily_frequency

Gordon Linoff · Answer 2 · 05 июля 2019

Хотя ответ Салмана кажется правильным, я думаю, ROW_NUMBER() проще:

COUNT(*) OVER (PARTITION BY ui, time::date
               ORDER BY time
              ) AS daily_frequency

Совокупный счет для расчета ежедневной частоты с использованием SQL-запроса

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Совокупный счет для расчета ежедневной частоты с использованием SQL-запроса

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы