Я собираюсь попробовать EMR и впредь изучать документацию прямо сейчас. Я немного смущен процессом отправки.
1) Где искры Библиотеки
Из документации Spark мы находим:
- spark.yarn.jars:
Список библиотек, содержащих код Spark для распространения в контейнерах YARN. По умолчанию Spark на YARN будет использовать локальные jar-файлы Spark, но jar-файлы Spark также могут находиться в общедоступном месте на HDFS. Это позволяет YARN кэшировать его на узлах, чтобы его не нужно было распределять при каждом запуске приложения. Например, чтобы указать jar-файлы в HDFS, установите для этой конфигурации значение hdfs: /// some / path. Разрешены шарики.
- (а) Интересно, как это устанавливается с помощью EMR, то есть настраивается ли оно с помощью EMR, или я должен сам это настроить?
2) Как работает параметр --master?
Из документации по искрам имеем:
- --master : В отличие от других диспетчеров кластеров, поддерживаемых Spark, в которых адрес мастера указывается в параметре --master, в режиме YARN адрес ResourceManager выбирается из конфигурации Hadoop. Таким образом, параметр --master - это пряжа.
- (a) Это установлено EMR напрямую?
3) Есть ли способ подать заявку из терминала или это единственный способ фактически развернуть jar на S3? Могу ли я войти в мастер и выполнить оттуда отправку? Будут ли готовы все переменные Env, необходимые для отправки сценария (см. Предыдущий вопрос)? Какой самый эффективный способ сделать это?