У нас есть кластер AWS EMR с 1 ведущим и 3 подчиненными узлами.У нас есть общий диск, который мы смонтировали на всех узлах в одной папке, т.е. / home / user / efs /. В этой папке есть сценарий оболочки, который выполняет некоторую работу и, наконец, вызывает spark-submit.Когда мы пытаемся выполнить это, используя Oozie, используя интерфейс HUE, который поставляется с EMR, он не может сказать, что команда «spark-submit» не найдена, когда рабочий процесс запускается на подчиненных узлах.
Как сделатьЯ делаю команду spark-submit доступной для всех узлов?
Или Как заставить Oozie запускать сценарий оболочки только на главном узле, где у меня присутствует команда spark-submit.
Я много искал, и единственное решение, которое я получил, - это то, что нам нужно установить Spark Gateway на всех подчиненных узлах, но не в части «как».
Я знаю, можем ли мы спроектировать рабочий процесс oozie для вызованепосредственно с spark-submit это будет работать, но согласно нашему требованию мы должны вызвать spark-submit внутри сценария оболочки.