Как планировать / запускать зажигательные работы в Cloudera? - PullRequest
0 голосов
/ 20 ноября 2018

В настоящее время наш проект находится на MR, и мы используем Oozie для организации наших рабочих мест MR.Теперь мы переходим к Spark и хотели бы узнать рекомендуемые способы планирования / запуска заданий Spark на кластере CDH.Обратите внимание, что CDH Oozie не поддерживает Spark2 Jobs.Поэтому, пожалуйста, дайте альтернативу этому.

Ответы [ 2 ]

0 голосов
/ 20 ноября 2018

В прошлый раз, когда я смотрел, у Хюэ была опция Spark в редакторе Worlflow.Если Cloudera не поддерживает это, я не уверен, почему это будет ...

CDH Oozie поддерживает простые сценарии оболочки, но вы должны быть уверены, что все NodeManager будут иметь spark-submit команда доступна на локальном сервере.

Если это не сработает, она также поддерживает действия Java для запуска JAR, поэтому вы можете написать все свои сценарии Spark, начиная с основного метода, который загружает любую конфигурацию изтам

0 голосов
/ 20 ноября 2018

Как только вы отправите задание spark из оболочки, например: spark-submit <script_path> <arguments_list>, оно будет отправлено в кластер CDH.Сразу же вы сможете увидеть спарк-задания и их ход в Hue. Так мы запускаем спарк-задания.

Далее, чтобы организовать серию заданий, вы можете использовать оболочку сценария оболочки вокруг него.,Или вы можете использовать задание cron для запуска по времени.

...