Необходимо выполнить Woo Oozie в Hue / AWS EMR, который вызывает сценарий оболочки, а сценарий оболочки, в свою очередь, вызывает spark-submit для запуска задания spark - PullRequest
0 голосов
/ 09 апреля 2019

У нас есть кластер AWS EMR с 1 ведущим и 3 подчиненными узлами.У нас есть общий диск, который мы смонтировали на всех узлах в одной папке, т.е. / home / user / efs /. В этой папке есть сценарий оболочки, который выполняет некоторую работу и, наконец, вызывает spark-submit.Когда мы пытаемся выполнить это, используя Oozie, используя интерфейс HUE, который поставляется с EMR, он не может сказать, что команда «spark-submit» не найдена, когда рабочий процесс запускается на подчиненных узлах.

Как сделатьЯ делаю команду spark-submit доступной для всех узлов?

Или Как заставить Oozie запускать сценарий оболочки только на главном узле, где у меня присутствует команда spark-submit.

Я много искал, и единственное решение, которое я получил, - это то, что нам нужно установить Spark Gateway на всех подчиненных узлах, но не в части «как».

Я знаю, можем ли мы спроектировать рабочий процесс oozie для вызованепосредственно с spark-submit это будет работать, но согласно нашему требованию мы должны вызвать spark-submit внутри сценария оболочки.

...