У нас есть среда composer, конфигурация которой приведена ниже.
- Composer Версия: composer -1.10.0-airflow-1.10.6
- Тип машины: n1-standard-4
- Размер диска ( ГБ): 100
- Рабочие узлы: 6
- python версия: 3
- worker_concurrency: 32
- параллелизм: 128
У нас есть проблема в DAG с инициализацией этой задачи, и это занимает больше времени. Например, у DAG есть 3 задачи, такие как Task1 -> Task2 -> Task3. Task1 инициализирует время выполнения (минимум 5 минут) и единожды инициализированное время завершения этой задачи в секундах. Инициализация Task2 снова занимает 5 минут и выполняется в течение нескольких секунд. Как будто инициализация этой задачи требует времени, но завершение этой задачи выполняется быстро. Запланируйте этот DAG каждые 5 минут, но его выполнение занимает не менее 10 минут. Это влияет на функциональность и выполнение процесса.
Вот функциональные возможности каждой из трех задач. Задача Task1 - собрать основную c информацию, такую как место хранения, из файлов / переменных конфигурации. Task2 проверяет хранилище, поступают ли новые файлы, и на основе файла запускает соответствующие группы DAG. Задача Task3 - отправить сообщение об успешном выполнении.
Также я заметил, что рабочие узлы не разделяли работу между собой. Использование ЦП одного рабочего узла всегда выше по сравнению с другими рабочими узлами. Не знаю, в чем может быть причина. Еще один интересный момент: хотя другие группы DAG в это время не работают, выполнение этой группы DAG все еще занимает 10 минут.
Благодарен за вашу помощь в решении этого случая.