Запустите работу Datapro c PySpark из облачного источника - PullRequest
0 голосов
/ 13 января 2020

В настоящее время я запускаю PySpark, используя DataProcPySparkOperator из Airflow со сценарием в облачном хранилище

run_pyspark_job = dataproc_operator.DataProcPySparkOperator(
    task_id='run-dataproc-pyspark',
    main='gs://my-repo/my-script.py',
    project_id=PROJECT_ID,
    cluster_name=CLUSTER_NAME,
    region='europe-west4'
)

Есть ли способ передать сценарий из облачных хранилищ исходного кода? Для данного репозитория можно получить абсолютную ссылку на сценарий, но, похоже, она не принята DAG.

https://source.cloud.google.com/my-organisation/my-repo/+/master:my-script.py

Есть ли способ добиться этого?

1 Ответ

0 голосов
/ 14 января 2020

Все файлы Python и Jar, на которые имеются ссылки, должны быть из файловой системы HDFS или HDFS или находиться в облачном хранилище Google bucket . Для получения дополнительной информации вы можете обратиться к документации Airflow .

. Чтобы создать корзину облачного хранилища, вы можете использовать следующую команду Make Bucket :

gsutil mb -l us-central1 gs://$DEVSHELL_PROJECT_ID-data

Вы можете сделать это следующим образом:

Если вы хотите использовать свои файлы из облачных исходных репозиториев, сначала вам нужно клонировать репозиторий, а затем скопировать содержимое данных в Google Cloud Storage

gsutil cp -r dir1/dir2 gs://$DEVSHELL_PROJECT_ID-data

Надеюсь, вы найдете приведенную выше информацию полезной.

...