Apache Beam / DataFlow: потоковый конвейер для завершения - PullRequest
0 голосов
/ 22 октября 2018

Я хочу написать конвейер DataFlow, который будет принимать сообщения от GCP Pub / Sub, но только до определенного момента времени.То есть я хотел бы завершить / остановить конвейер, как только обрабатываемые сообщения проходят определенную дату-время.

Мотивация: данные, полученные в имеющемся у меня потоке, недостаточно велики по объему для загрузки конвейера в течение 24/7 - рабочие в значительной степени недоиспользуются при непрерывном запуске потокового конвейера.Вместо этого я хотел бы периодически запускать конвейер (скажем, каждые N часов) обрабатывать данные из Pub / Sub за предыдущий период времени (предыдущие N часов, но, в идеале, не данные, которые могут поступить во время обработки ), и пусть он остановится, когда будет достигнут конец текущего окна обработки.Это возможно с Beam / DataFlow?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...