Я использую поток воздуха для запуска заданий на кирпичах данных.У меня есть много групп DAG, выполняющих задания для блоков данных, и я хочу использовать только один кластер вместо многих, поскольку, насколько я понимаю, это сократит затраты, которые сгенерирует эта задача.
При использовании DatabricksSubmitRunOperator
существует два способазапустить работу на кирпичи данных.Либо используя работающий кластер, вызывающий его по идентификатору
'existing_cluster_id' : '1234-567890-word123',
, либо запуская новый кластер
'new_cluster': {
'spark_version': '2.1.0-db3-scala2.11',
'num_workers': 2
},
Теперь я хотел бы попытаться избежать запуска нового кластера для каждой задачи, однакокластер отключается во время простоя, поэтому он не будет доступен через его идентификатор, и я получу ошибку, поэтому, на мой взгляд, единственная опция - это новый кластер.
1) Есть ли способ получитькластер вызывается по идентификатору, даже когда он выключен?
2) Люди просто поддерживают кластеры живыми?
3) Или я совершенно не прав, и запуск кластеров для каждой задачи не приведет к увеличению затрат?
4) Есть ли что-то, что я полностью пропустил?