Как использовать GroupBy в конвейере данных Google для записи в GCS? - PullRequest
0 голосов
/ 29 ноября 2018

Мы используем Google Dataflow (сценарий использования Streaming Pipeline) для обработки сообщений PubSub, которые необходимо преобразовать в определенный формат строки и затем записать в текстовые файлы для каждой группы (идентификатор группы является частью сообщения PubSub) в соответствующие папки дляэта группа в Google Cloud Storage.

Например, сообщения PubSub выглядят следующим образом:

M1: {"info": "account: 1, group: 2, user: 35", "accessId": 123}

M2: {"info": "account: 2, group: 4, user: 23", "accessId": 123}

Мы используем пользовательское преобразование для преобразования сообщенияв требуемый формат строки для каждого сообщения.Опубликуйте, что мы можем записать строки в один каталог после продолжительности окна.Однако, как мы можем сгруппировать по идентификатору группы, чтобы записать M1 в каталог 1 в GCS и M2 в каталог 2 в GCS.

Версия потока данных Google: 2.5+ Язык: Java

Пожалуйста, дайте мнезнать, если вам нужно больше информации.Спасибо

...