Поток данных: элементы окна по определенному значению поля - PullRequest
0 голосов
/ 31 марта 2020

У меня есть конвейер потока данных (написанный на Apache Beam), который читает элементы JSON из PubSub и записывает их в GCS. Каждый элемент JSON содержит поле с именем timestamp, которое является длинной датой.

Я бы хотел сгруппировать несколько элементов в windows, разделенные на компоненты года, месяца и дня временной метки (скажем, 1000 элементов в одном окне) и запишите их в путь GCS в следующем формате:

YYYY/MM/DD/[timestamp].json

Как мне добиться этого поведения?

Спасибо

...