Улей - Как сделать 5-минутные временные окна (в поле отметки времени) и выполнить агрегирование (например, подсчет) в других полях.? - PullRequest
0 голосов
/ 26 июня 2019

Я пытаюсь уменьшить дубликаты в моих потоковых данных каждые 5 минут и хотел бы объединить количество этих записей. Отметка времени в каждой записи может быть одинаковой / разной. Я хочу применить дедупликацию и агрегирование на основе других полей.

Ввод:

Timestamp, Id1, Message
2019-06-26 11:50:00, A, abc
2019-06-26 11:50:00, A, abc
2019-06-26 11:53:04, A, abc
2019-06-26 11:54:00, A, abc 
2019-06-26 11:54:30, X, xyz
2019-06-26 11:54:58, X, xyz
2019-06-26 11:56:04, X, xyz
2019-06-26 11:57:30, A, abc

Ожидаемый результат:

Window, Id1, Message, Count
2019-06-26 11:50:00 - 2019-06-26 11:55:00, A,abc, 4
2019-06-26 11:50:00 - 2019-06-26 11:55:00, X,xyz, 2
2019-06-26 11:55:00 - 2019-06-26 12:00:00, X,xyz, 1
2019-06-26 11:55:00 - 2019-06-26 12:00:00, A,abc, 1
...