Apache Воздушный поток - запустить задачу на EC2 - PullRequest
2 голосов
/ 28 января 2020

Мы рассматриваем возможность переноса наших конвейеров данных в Airflow, и один из элементов, который нам требуется, - это возможность задачи создавать, выполнять и уничтожать экземпляр EC2. Я знаю, что Airflow поддерживает ECS и Fargate, которые будут иметь аналогичный эффект, но не все наши задачи будут вписываться непосредственно в эту парадигму без значительного рефакторинга.

Я вижу, что мы можем использовать распределенный исполнитель и масштабировать пул рабочих вверх и вниз вручную, но нам действительно не нужно постоянно поднимать рабочих, только время от времени, и когда мы делаем это, нам так же хорошо, когда у нас есть выделенная машина для каждой задачи, которая выполняется, уничтожая каждую машина, когда задача завершается.

Идея, которую я застрял в моей голове, была бы чем-то вроде «EphemeralEC2Operator», который вставал бы машину, на S SH in, запускал сценарий bash, который управляет задание, а затем сломать машину.

Существует ли эта возможность, или мы должны были бы реализовать ее самостоятельно?

Заранее спасибо.

...