Я использую Airflow для планирования отправки JAR-файлов (соответствующих упаковке приложений Spark) в кластер Hadoop.
Различные задания Spark имеют одно и то же имя JAR, но в зависимости от файлов конфигурации (я использую файлы .conf с библиотекой конфигурации TypeSafe) запускаются разные задания. Мой вопрос заключается в том, как заставить Airflow анализировать файлы .conf, чтобы узнать, какое задание запускается.
поэтому здесь я запускаю искровое приложение с spark-submit --class ( same class for all jobs) -Dconfig.file=path/to/config-file
Любая идея об этом, пожалуйста