AirFlow DatabricksSubmitRunOperator не принимает параметры ноутбука - PullRequest
0 голосов
/ 01 мая 2020

Я пытаюсь вызвать ноутбук из Airflow. Записная книжка имеет параметры, определенные как виджеты, и я пытаюсь передать ей значения через параметр notebook_params, и, хотя он срабатывает, при просмотре отправленного задания параметры, похоже, не передаются.

Например, код

new_cluster = {'spark_version': '6.5.x-cpu-ml-scala2.11',
                        'node_type_id': 'Standard_DS3_v2',
                        'num_workers': 4
                        }

notebook_task = DatabricksSubmitRunOperator(task_id='notebook_task',
             json={'new_cluster': new_cluster,
                                'notebook_task': {
                                    'notebook_path': '/Users/abc@test.com/Demo',
                                    'notebook_parameters':'{"fromdate":"20200420","todate":"20200420", "datalakename":"exampledatalake", "dbname": "default", "filesystem":"refined" , "tablename":"ntcsegmentprediction", "modeloutputpath":"curated"}'
                                },
                            })

однако DatabricksRunNowOperator поддерживает его, и он работает

notebook_run = DatabricksRunNowOperator(task_id='notebook_task',
            job_id=24,
            notebook_params={"fromdate":"20200420","todate":"20200420", "datalakename":"exampledatalake", "dbname": "default", "filesystem":"refined" , "tablename":"ntcsegmentprediction", "modeloutputpath":"curated"}
        )

В документации и исходном коде DatabricksSubmitRunOperator в здесь

сказано это может взять в notebook_task. Если это возможно, не уверен, почему он не может принимать параметры

Чего мне не хватает?

Если требуется дополнительная информация, я также могу предоставить ее.

...