Как установить очередь YARN при отправке приложения Spark из Airflow SparkSubmitOperator - PullRequest
2 голосов
/ 21 февраля 2020

Я новичок в Airflow и SparkSubmitOperator. Я вижу, что приложения Spark отправляются в очередь 'root .default' из коробки при нацеливании на YARN.

Простой вопрос - как задать имя пользовательской очереди?

wordcount = SparkSubmitOperator(
    application='/path/to/wordcount.py',
    task_id="wordcount",
    conn_id="spark_default",
    dag=dag
)

ps Я прочитал документы:

https://airflow.apache.org/docs/stable/_modules/airflow/contrib/operators/spark_submit_operator.html

Спасибо

1 Ответ

1 голос
/ 21 февраля 2020

Теперь я вижу, что значение --queue поступает из соединения по умолчанию с искрой Airflow:

Conn Id = spark_default
Host = yarn
Extra = {"queue": "root.default"}

Измените значение Extra на {"queue": "default"} в пользовательском интерфейсе Airflow WebServer.

Это, конечно, означает, что для каждой очереди требуется соединение Airflow.

...