Apache Airflow - сколько задач в DAG - это слишком много? - PullRequest
0 голосов
/ 27 апреля 2019

Я попытался создать DAG с 400 задачами (например, каждая из которых запускает вызывающий удаленный сервер спарк для обработки отдельного файла данных в s3 ... ничего общего с mysql), и airflow (v1.10.3) сделал следующее для следующего 15 минут:

  • процессор остался на 99%
  • не обрабатывает новые запросы на вход в систему или ssh моя машина (амазон линукс)
  • веб-сервер воздушного потока перестал отвечать .. только дал 504 ошибки
  • Запущено 130 одновременных подключений к mysql RDS (поток метаданных)
  • держал мои задачи в запланированном состоянии

В конце концов я переключился на другой экземпляр ec2, но получил тот же результат ...

Я использую LocalExecutor на одной машине (16 процессоров).

Примечание: для группы DAG с 30 задачами она работает нормально.

1 Ответ

0 голосов
/ 28 апреля 2019

Нет фактического ограничения на количество задач в группе обеспечения доступности баз данных.В вашем случае вы используете LocalExecutor - airflow будет затем использовать любые ресурсы, доступные на хосте, для выполнения задач.Похоже, вы просто перегружали ресурсы экземпляра ec2 и перегружали работника / планировщика воздушного потока.Я бы порекомендовал добавить больше рабочих, чтобы разбить задачи или понизить значение parallelism в вашем airflow.cfg

...