Облачный композитор (поддерживаемый Apache Airflow) предназначен для планирования задач в небольших масштабах.
Вот пример, который поможет вам понять:
Скажем, у вас есть файл CSV в GCS, и, используя ваш пример, скажем, вы используете Cloud Dataflow для его обработки и вставки отформатированных данных в BigQuery. Если это одноразовая вещь, вы только что закончили ее и она идеальна.
Теперь предположим, что ваш CSV-файл перезаписывается каждый день в 01:00 UTC, и вы хотите запускать одно и то же задание Dataflow для его обработки каждый раз, когда он перезаписывается. Если вы не хотите вручную запускать задание точно в 01:00 UTC, независимо от выходных и праздничных дней, вам нужно периодически запускать задание для вас (в нашем примере в 01:00 UTC каждый день). Cloud Composer может помочь вам в этом случае. Вы можете предоставить конфигурацию для Cloud Composer, которая включает в себя какие задания (операторы) запускать, когда запускать (указать время начала задания) и с какой периодичностью (может быть ежедневно, еженедельно или даже ежегодно).
Кажется, уже круто, но что если вы выберете ежедневное время работы, если файл CSV будет перезаписан не в 01:00 UTC, а в любое время дня? Cloud Composer предоставляет датчики, которые могут отслеживать состояние (в этом случае время изменения файла CSV). Cloud Composer может гарантировать, что он начнет работу, только если условие выполнено.
Существует множество других функций, которые предоставляет Cloud Composer / Apache Airflow, в том числе наличие группы DAG для запуска нескольких заданий, повторение неудачных задач, уведомление об ошибках и удобная панель инструментов. Вы также можете узнать больше из их документации.