Добавление задания spark-r в шаблон рабочего процесса dataproc - PullRequest
1 голос
/ 13 марта 2019

Я пытался добавить шаг задания spark-r в свой шаблон рабочего процесса двумя различными способами.

С помощью команды gcloud:

gcloud beta dataproc workflow-templates add-job spark-r gs://path/to/script.R \
    --step-id=<stepid> --workflow-template=<templateid>

Или путем импорта определения YAML:

jobs:
- sparkRJob:
    mainRFileUri: gs://path/to/script.R
  stepId: <stepid>
placement:
  managedCluster:
    clusterName: cluster-sparkr
    config:
      gceClusterConfig:
        zoneUri: europe-west4-b
      masterConfig:
        machineTypeUri: n1-standard-4
      workerConfig:
        machineTypeUri: n1-standard-4
        numInstances: 4

Однако оба способа приводят к следующей ошибке:

INVALID_ARGUMENT: Job "" должен предоставить определение задания

, что оставляет менянемного смущен тем, что именно мне не хватает.

1 Ответ

1 голос
/ 13 апреля 2019

Я проверил ваше определение YAML, и оно сработало у меня с командой:

gcloud beta dataproc workflow-templates instantiate-from-file --file <definition.yaml>

Кроме того, шаблон рабочего процесса с заданием Spark R, успешно созданный с помощью команд gcloud:

gcloud beta dataproc workflow-templates create my-test-wf-01
gcloud beta dataproc workflow-templates add-job spark-r gs://path/to/script.R \
    --step-id=my-test-step-id --workflow-template=my-test-wf-01

Вывод 2-й команды выше:

createTime: '2019-04-15T16:49:06.346Z'
id: my-test-wf-01
jobs:
- sparkRJob:
    mainRFileUri: gs://path/to/script.R
  stepId: my-test-step-id
...