Можно ли распределить долгосрочную задачу по разным работам с помощью Airflow? - PullRequest
0 голосов
/ 03 мая 2020

Я хотел бы создать конвейер данных и использовать Airflow.

Некоторая информация о проекте:

  1. Все задачи (входные параметры) заранее сохраняется в базе данных с помощью скрипта.

  2. Я хочу запустить конвейер вручную. Затем все задачи извлекаются из базы данных и сохраняются в очереди. Каждая задача состоит из 3 зависимых задач, которые должны быть обработаны шаг за шагом. Для каждой подзадачи заранее создается контейнер с информацией о количестве процессоров и необходимой памяти. В зависимости от размера кластера отдельные задачи обрабатываются параллельно. Масштабирование должно организовываться автоматически в зависимости от ресурсов кластера.

Может ли эта концепция быть реализована, как описано, или существует более простое решение?

Thx Markus

...