DataProcPySparkOperator кластер области и зоны проблема - PullRequest
0 голосов
/ 02 мая 2018

Проблема с использованием DataProcPySparkOperator. Ниже задание, которое я добавил в свой DAG:

run_pyspark_job= DataProcPySparkOperator(
    task_id='pyspark_operator_test',
    main='/root/airflow/dags/basic_eda.py',
    job_name='test_pyspark_job',
    cluster_name='test-cluster-20180502',
    gcp_conn_id='google_cloud_default',
    region='global',
    zone='us-central1-b'
)

Ошибка ниже:

googleapiclient.errors.HttpError: https://dataproc.googleapis.com/v1/projects/project_id/regions/global/jobs:submit?alt=json возвращено "Не найдено: кластерные проекты / project_id / region / global / clusters / cluster-1"

Это не указывает на правильный кластер

Пожалуйста, подскажите, что мне не хватает?

1 Ответ

0 голосов
/ 03 мая 2018

Параметры были изменены в Airflow 1.9. Для указания идентификатора кластера использовался параметр dataproc_cluster, который был изменен на cluster_name в 1.9.

Так что, если вы используете apache-airflow <= '1.8.2', тогда используйте <code>dataproc_cluster, чтобы указать cluster_id ('test-cluster-20180502').

Проверка: https://github.com/apache/incubator-airflow/blob/master/UPDATING.md#deprecated-features

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...