Я пытаюсь написать какой-нибудь конвейер потока данных, конвейер будет
- Чтение из потоковых данных pubsub.
- Выполнение некоторой обработки в реальном времени и вывод большого запроса.
- В то же время используйте один и тот же источник pubsub для некоторой агрегации, используя несколько скользящих окон разного размера независимо.Агрегация из разных окон не влияет друг на друга.Результаты агрегации будут выводиться на большой запрос.
- Мой вопрос таков: могу ли я написать все это внутри одного и того же потока данных?Или, по крайней мере, я мог бы написать все агрегаты в одном конвейере?
Я новичок в потоке данных.Не уверен, что он может сделать.
Что-то, о чем я думаю:
pipeline.create()
pcollection = pubsub.read()
pcollection.apply(someRealtimeProcess()).apply(writeToBigQuery())
pcollection.apply(firstWindow()).apply(wrtiteToBigQuery)
pcollection.apply(secondWindow()).apply(writeToBigQuery)
pipeline.run()