Мы выполняем тысячи задач в день в моей компании и используем Airflow уже более двух лет. Эти пакеты запускаются каждые 15 минут и генерируются через конфигурационные файлы, которые могут изменяться в любое время (поступают из пользовательского интерфейса).
Краткий ответ - да, он может определенно масштабироваться в зависимости от вашей инфраструктуры. Некоторые из новых функций 1.10 должны сделать это проще, чем версия 1.8, которую мы запускаем, которая выполняет все эти задачи. Мы запустили это на большом Mesos / DCOS, который потребовал много тонкой настройки, чтобы достичь стабильной точки.
Длинный ответ - хотя он может масштабироваться до этого, мы обнаружили, что лучшим решением является несколько экземпляров Airflow с различными конфигурациями (настройки планировщика, количество рабочих и т. Д.) .) оптимизирован для типов дагов, на которых они работают. Набор групп обеспечения доступности баз данных, выполняющих длительные задания машинного обучения, должен размещаться на экземпляре Airflow, который отличается от экземпляров, выполняющих 5-минутные задания ETL. Это также облегчает различным командам поддержание заданий, за которые они несут ответственность, и упрощает итерацию при любой тонкой настройке, которая необходима.