Как отключить автозапуск всех задач при перезапуске воздушного потока? - PullRequest
0 голосов
/ 02 мая 2018

У нас проблема. Когда мы перезапускаем поток воздуха - все наши задачи запускаются в это время из-за большой нагрузки на наши серверы. Как мы можем предотвратить запуск всех задач при перезапуске воздушного потока?

Пример задачи:

    default_args = {
     'owner': 'airflow',
     'depends_on_past': False,
     'start_date': datetime(2018, 5, 2),
     'email': ['test@test.com'],
     'email_on_failure': True,
     'email_on_retry': True,
     'retries': 1,
     'retry_delay': timedelta(minutes=5),
     'catchup': False

 }

 dag = DAG(
     'start_data_collect', default_args=default_args, schedule_interval=timedelta(minutes=10))

 t1 = BashOperator(
     task_id='print_date',
     bash_command='date',
     dag=dag)

1 Ответ

0 голосов
/ 22 февраля 2019

Если ваши серверы испытывают большую нагрузку, все ваши работники могут легко подключаться и запрашивать / использовать их. Я рекомендую, чтобы в следующий раз, прежде чем перезапустить Airflow, вы просматривали все ошибки, используя соединения с серверами, которые могут быть перегружены, и настраивали их задачи для каждого использования пула, вероятно, по одному на сервер или соединение. Вам также необходимо создать пул в пользовательском интерфейсе со слотами. Но в v1.9 и новее есть патч, который автоматически создает пулы с 0 слотами, так что вы можете использовать пользовательский интерфейс и добавить несколько слотов к каждому из них. Таким образом, даже если планировщик может запланировать много доступных задач, он не будет планировать больше, чем количество задач может поместиться в слотах.

...