оператор воздушного потока для использования команд gcloud beta datapro c - PullRequest
0 голосов
/ 05 мая 2020

Кто-нибудь знает, существует ли оператор Airflow, который мог бы делать то, что делают команды бета-версии gcloud? Я пытаюсь запустить задание Spark в кластере GKE. Команды бета-версии gcloud работают, но не при использовании DataprocSparkOperator.

С этим оператором задание продолжает выполняться, но модуль драйвера не создается, но он работает, выполняя команду gcloud, указанную здесь: https://cloud.google.com/dataproc/docs/concepts/jobs/dataproc-gke

1 Ответ

0 голосов
/ 05 мая 2020

Честно говоря, я считаю, что Airflow не предназначен для выполнения команд gcloud. Если оператора нет, то лучше использовать Google API совместно с PythonOperator.

Если вы действительно хотите использовать команды gcloud, вам необходимо установить gcloud SDK в свой экземпляр Airflow: https://cloud.google.com/sdk/docs/downloads-interactive#silent. Он довольно тяжелый, поэтому, если у вас есть Airflow как услуга, его развертывание займет больше времени.

В конце концов, вам нужно будет авторизоваться - существует вариант service-account, который может быть оптимальным для вас: https://cloud.google.com/sdk/gcloud/reference/auth/activate-service-account.
Вам нужно будет поставить service-account в безопасном месте, например HDFS (если у вас кластер). Для локальных целей он может храниться локально.

Если вы закончили авторизацию, просто используйте BashOperator, чтобы делать то, что вы хотите - у вас установлен gcloud в вашем Airflow.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...