Я могу запустить Spark
задание, используя BashOperator
, но я хочу использовать SparkSubmitOperator
для него, используя Spark
автономный режим .
Вот мой DAG
для SparkSubmitOperator
и трассировка стека
args = {
'owner': 'airflow',
'start_date': datetime(2018, 5, 24)
}
dag = DAG('spark_job', default_args=args, schedule_interval="*/10 * * * *")
operator = SparkSubmitOperator(
task_id='spark_submit_job',
application='/home/ubuntu/test.py',
total_executor_cores='1',
executor_cores='1',
executor_memory='2g',
num_executors='1',
name='airflow-spark',
verbose=False,
driver_memory='1g',
conf={'master':'spark://xx.xx.xx.xx:7077'},
dag=dag,
)
Глядя на источник для spark_submit_hook
кажется_resolve_connection()
всегда устанавливает master=yarn
.Как изменить master
значение свойства на Spark
автономный главный URL-адрес?Какие свойства я могу установить для запуска Spark
задания в автономном режиме ?