Исключение при использовании DataProcSparkOperator в Airflow Dags - PullRequest
1 голос
/ 01 ноября 2019

Я новичок в Apache Airflow Usage, в настоящее время использую Airflow1.10.4 с поддержкой Python 2.7. Мне нужно запустить искровое задание через Airflow DAG, поэтому я использую DataProcSparkOperator. Но перед лицом исключения

AttributeError: у объекта 'DataProcSparkOperator' нет атрибута 'dataproc_spark_jars'

Фрагмент кода:

from airflow.contrib.operators.dataproc_operator import DataProcSparkOperator
.
.
.
data_t1 = DataProcSparkOperator(
    task_id='data_job',
    job_name='extract_data',
    cluster_name='cluster-a',
    arguments=["{{ task_instance.xcom_pull(task_ids='puller') }}","gs://data-bucket/dailydata"],
    main_jar='gs://data-bucket/spark_jar1/spark-read-5.0-SNAPSHOT-jar-with-dependencies.jar',
    region="us-central",
    dag=dag
)

Пробовал с main_jar / dataproc_sparkАтрибут (все возможные способы) Однако я попытался с другими предлагаемыми исправлениями (так как airflow.contrib.operators.dataproc_operator в некоторых версиях устарела), поэтому используется ниже

from airflow.gcp.operators.dataproc import DataProcSparkOperator

снова я сталкиваюсь с

Ошибка импорта: нет модуля gcp.operators.dataproc ..

...