Итак, я пытаюсь запустить приложение Apache Spark
на AWS EMR в режиме cluster
, используя spark-submit
. Если у меня есть только один jar для предоставления в classpath, он отлично работает с данной опцией, используя опции --jar
и --driver-class-path
Все мои необходимые банки зависимостей расположены в корзине S3
, как того требует EMR. Я использую приведенную ниже команду для этой цели в EMR add step option на консоли EMR AWS:
--class org.springframework.boot.loader.JarLauncher --jars s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/gson-2.8.4.jar
Теперь я предоставляю эту опцию в области spark-submit options
в add step
. Но если я хочу предоставить несколько зависимых фляг, используя один и тот же способ, он не займет другие фляги. Я предоставляю следующий способ и пробовал различные варианты, но он не может найти зависимые банки:
--jars s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --class org.springframework.boot.loader.JarLauncher