Шаг добавления AWS EMR: как добавить несколько jar-файлов из s3 в параметрах --jars и --driver-class-path? - PullRequest
1 голос
/ 19 апреля 2019

Итак, я пытаюсь запустить приложение Apache Spark на AWS EMR в режиме cluster, используя spark-submit. Если у меня есть только один jar для предоставления в classpath, он отлично работает с данной опцией, используя опции --jar и --driver-class-path Все мои необходимые банки зависимостей расположены в корзине S3, как того требует EMR. Я использую приведенную ниже команду для этой цели в EMR add step option на консоли EMR AWS:

--class org.springframework.boot.loader.JarLauncher --jars s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/gson-2.8.4.jar

Теперь я предоставляю эту опцию в области spark-submit options в add step. Но если я хочу предоставить несколько зависимых фляг, используя один и тот же способ, он не займет другие фляги. Я предоставляю следующий способ и пробовал различные варианты, но он не может найти зависимые банки:

 --jars s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --driver-class-path s3://emrb/hadoop_jars/emrfs-hadoop-assembly-2.32.0.jar,s3://emrb/gson-2.8.4.jar --class org.springframework.boot.loader.JarLauncher

1 Ответ

0 голосов
/ 07 мая 2019

Вы можете добавить файлы jar в значения по умолчанию.Если в списке jar больше одной записи, используйте: в качестве разделителя.

, вы должны использовать:

- путь к классу драйвера s3: // emrb / hadoop_jars / emrfs-Hadoop-сборочно-2.32.0.jar: s3: //emrb/gson-2.8.4.jar

...