Сколько может масштабироваться воздушный поток? - PullRequest
0 голосов
/ 28 августа 2018

Кто-нибудь сообщил, сколько они смогли увеличить Airflow в своей компании? Я смотрю на реализацию Airflow для выполнения более 5000 задач, каждая из которых будет выполняться ежечасно, и когда-нибудь масштабирую до 20 000+ задач. При рассмотрении планировщика кажется, что это может быть узким местом, поскольку может выполняться только один его экземпляр, и я обеспокоен тем, что планировщику будет трудно справиться со многими задачами. Должен ли я быть?

1 Ответ

0 голосов
/ 28 августа 2018

Мы выполняем тысячи задач в день в моей компании и используем Airflow уже более двух лет. Эти пакеты запускаются каждые 15 минут и генерируются через конфигурационные файлы, которые могут изменяться в любое время (поступают из пользовательского интерфейса).

Краткий ответ - да, он может определенно масштабироваться в зависимости от вашей инфраструктуры. Некоторые из новых функций 1.10 должны сделать это проще, чем версия 1.8, которую мы запускаем, которая выполняет все эти задачи. Мы запустили это на большом Mesos / DCOS, который потребовал много тонкой настройки, чтобы достичь стабильной точки.

Длинный ответ - хотя он может масштабироваться до этого, мы обнаружили, что лучшим решением является несколько экземпляров Airflow с различными конфигурациями (настройки планировщика, количество рабочих и т. Д.) .) оптимизирован для типов дагов, на которых они работают. Набор групп обеспечения доступности баз данных, выполняющих длительные задания машинного обучения, должен размещаться на экземпляре Airflow, который отличается от экземпляров, выполняющих 5-минутные задания ETL. Это также облегчает различным командам поддержание заданий, за которые они несут ответственность, и упрощает итерацию при любой тонкой настройке, которая необходима.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...