Как передать свойства задания Spark в DataProcSparkOperator в Airflow? - PullRequest
0 голосов
/ 01 января 2019

Я пытаюсь выполнить Spark jar на Dataproc, используя DataProcSparkOperator от Airflow .JAR находится на GCS, и я на лету создаю кластер Dataproc, а затем выполняю этот Jar на вновь созданном кластере Dataproc.

Я могу выполнить это с помощью DataProcSparkOperator Airflow с настройками по умолчанию, но яЯ не могу настроить свойства задания Spark (например, --master, --deploy-mode, --driver-memory и т. д.).Из документации по воздушному потоку не получили никакой помощи.Также перепробовал много вещей, но не получилось.Помощь приветствуется.

1 Ответ

0 голосов
/ 01 января 2019

Чтобы настроить задание Spark через DataProcSparkOperator, вам нужно использовать параметр dataproc_spark_properties.

Например, вы можете установить deployMode следующим образом:

DataProcSparkOperator(
    dataproc_spark_properties={ 'spark.submit.deployMode': 'cluster' })

В этом ответе вы можете найти более подробную информацию.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...