Как запускать ресурсоемкие задачи с помощью Airflow - PullRequest
0 голосов
/ 28 августа 2018

У нас есть длительное (3 часа) учебное задание на модели, которое выполняется каждые 3 дня, и меньшие конвейеры прогнозирования, которые выполняются ежедневно. В обоих случаях мы используем плагин Jenkins + EC2 для раскрутки больших экземпляров (рабочих) и запуска на них конвейеров. Это служит 2 целям:

  1. Держите трубопроводы изолированными. Таким образом, каждый конвейер имеет все ресурсы одного экземпляра.
  2. Мы экономим расходы. Большой экземпляр запускается всего несколько часов, а не 24/7

С плагином Jenkins + EC2 я не несу ответственности за копирование кода на работника и возвращение результатов выполнения. Дженкинс делает это под капотом.

Есть ли в любом случае, чтобы достичь того же поведения с воздушным потоком?

1 Ответ

0 голосов
/ 28 августа 2018

Airflow 1.10 выпустил множество новых интеграций с AWS, которые дают вам несколько возможностей сделать что-то подобное в AWS.

https://airflow.apache.org/integration.html#aws-amazon-web-services

Если вы выполняете свою задачу в контейнере, это звучит так, как будто ECSOperator или KubernetesPodOperator могут быть тем, что вам нужно (если вы используете Kubernetes).

...