время запуска + несколько событий в Pubsub - PullRequest
0 голосов
/ 14 ноября 2018

Я принимаю 2 разных набора данных в GCS. Допустим, я пишу событие e1 и событие e2 соответственно в pubsub, что происходит в разное время.

Я хочу начать работу и в 9 часов утра и проверить, произошли ли оба события e1 и e2 в этот конкретный день (после 9 часов утра), а затем запустить процесс, чтобы сгенерировать другой набор данных из этих 2 наборов данных.

Имеет ли Cloud Composer право создавать такие требования. Если да, то, пожалуйста, дайте несколько советов, как это можно сделать

1 Ответ

0 голосов
/ 29 ноября 2018

Cloud Composer (и Airflow) должны подходить для этого варианта использования.

Вы можете создать DAG с ежедневным schedule_interval, который начинается в 9 часов утра. Используйте PubsubSensor для каждого события (s1 и s2). Предполагая, что процесс для генерации другого набора данных является оператором, вы могли бы тогда убедиться, что generate_dataset происходит, установив зависимости:

s1 >> generate_dataset
s2 >> generate_dataset
...