Запускать похожие на cron задачи каждые несколько минут в луче? - PullRequest
0 голосов
/ 27 декабря 2018

Мой конвейер лучей импортирует данные в большие запросы, и в последнее время он должен поддерживать обновления и удаления.Так как BigQuery имеет ежедневные ограничения на количество обновлений и удалений, которые я могу сделать за день, я хочу отдельный процесс, который запускается каждые 30 минут или около того, чтобы объединить обновления и удаления в основной набор данных.

Есть ли способ сделать это с помощью Apache Beam?Функция, которая запускается по таймеру и выполняет только побочный эффект и гарантирует, что она выполняется только на одной машине?

Я бы очень предпочел, чтобы, если бы весь мой код находился в одной и той же базе кода задания потока данных, и онне выполняется, если задание потока данных не выполняется.

Ответы [ 3 ]

0 голосов
/ 04 января 2019

Вы могли бы потенциально использовать GenerateSequence transform для запуска действия (объединение обновлений и удалений) с указанной частотой.

0 голосов
/ 04 января 2019

Использовать облачный планировщик для повторного запуска конвейера каждые 30 минут?

https://cloud.google.com/scheduler/

0 голосов
/ 31 декабря 2018

В противном случае, вы должны использовать Kubernetes Cronjobs.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...