Настроить рабочие процессы Dataprod - PullRequest
2 голосов
/ 20 сентября 2019

Я использую рабочие процессы с Dataproc.Я хотел бы сделать 3 вещи:

  • создать один шаг рабочего процесса.Иногда происходит сбой рабочего процесса, и я не хочу снова запускать весь рабочий процесс, только на определенном этапе / 1007 *

  • из рабочего процесса, я бы хотел отключитьзадача в планировщике, а также вызов функции облака, это возможно?

Есть ли способ достичь этого?Благодаря.

Ответы [ 2 ]

2 голосов
/ 20 сентября 2019

Спасибо, что обратились.Мы намеренно не реализовали некоторые функции, пока у нас не было явного спроса.

Я бы предложил подать запрос на функцию для № 1 и № 2 с вариантом использования в [1].

Работа поддержкиповторные попытки (с помощью перезапускаемых заданий) или добавление политик, таких как обработка по ошибке в рабочих процессах, кажется разумным.

Я не уверен, что вы запрашиваете в # 3 (какой планировщик)?Облачные функции запускаются через HTTP-запросы, файлы в уведомлениях GCS или PubSub.Вы должны иметь возможность использовать pyspark с клиентской библиотекой для запуска по любому из этих путей.

[1] https://cloud.google.com/support/docs/issue-trackers

0 голосов
/ 22 сентября 2019

Лучше использовать более универсальное решение для оркестровки - Cloud Composer (управляемый Apache Airflow ) вместо рабочих процессов Dataproc.Он имеет все необходимые функции и поддерживает Dataproc .

...