Управляемый кластер dataproc завершает все задания в случае сбоя одного задания - PullRequest
0 голосов
/ 07 ноября 2019

Я пытаюсь запустить рабочие задания в управляемом кластере DataProc. У меня есть несколько независимых свиноводческих заданий, которые работают параллельно. Я установил continueOnFailure для каждого задания, чтобы быть правдой. Теперь, если одно из заданий не выполнено, все остальные останавливаются и кластер завершается. Я не хочу этого, я хочу, чтобы сбойное задание было прекращено, а другие задания выполнялись должным образом.

Файл yaml, через который я создаю экземпляр, выглядит так:

jobs:
- pigJob:
    continueOnFailure: true
    queryList:
      queries:
      - sh pqr.sh
  stepId: run-pig-pqr
- pigJob:
    continueOnFailure: true
    queryList:
      queries:
      - sh abc.sh
  stepId: run-pig-abc

placement:
  managedCluster:
    clusterName: batch-job
    config:
      gceClusterConfig:
        zoneUri: asia-south1-a
      masterConfig:
        machineTypeUri: n1-standard-8
        diskConfig:
          bootDiskSizeGb: 50
      workerConfig:
        machineTypeUri: n2-highcpu-64
        numInstances: 2
        diskConfig:
          bootDiskSizeGb: 50
      softwareConfig:
        imageVersion: 1.4-ubuntu18

Iя создаю кластер с командой

gcloud dataproc workflow-templates instantiate-from-file --file $file-name.yaml

Я даю неправильный конфиг в моем yaml?

1 Ответ

0 голосов
/ 08 ноября 2019

Флаг continueOnFailure работает как положено в Pig: для некоторых типов сбоев интерпретатор игнорирует сбои и продолжает работать. Однако драйвер pig по-прежнему завершается с ненулевым кодом ошибки, что приводит к сбою задания Dataproc, а затем рабочий процесс отменяет все задания и удаляет кластер.

Поскольку вы используете команды оболочки, вы можетеперехватите выход и замените его кодом 0:

function finish {
    exit 0
}
trap finish ERR

. Я также призываю вас подать запрос на добавление дополнительных переключателей для обработки ошибок в рамках рабочих процессов здесь: https://issuetracker.google.com/issues/new?component=187133&template=0

...