Я пытаюсь запустить несколько клиентов Spark на Airflow (планировщик ETL).
Я работаю в кластерном режиме на YARN, поэтому ApplicationMaster Executor и Driver все работают на executor в контексте Yarn. Тем не менее, мой клиент Spark, который выполняет выборку процесса и отслеживает состояние, работает в airflow worker.
Проблема заключается в том, что клиент Spark занимает много памяти ~ 500 МБ на задание. С точки зрения исполнителей или драйверов это может звучать не так уж и много, но для роли спарк-клиента это звучит безумно.
У меня вопрос: как настроить / манипулировать требованиями к памяти / процессору спарк-клиента, можно ли ограничить его интервалы? ? можно ли ограничить его память флагами?