Передача аргументов из файла в несколько заданий поиска - PullRequest
0 голосов
/ 30 августа 2018

Возможно ли иметь один главный файл, в котором хранится список аргументов, на который можно ссылаться из команды spark-submit?

Пример файла свойств, configurations.txt (не обязательно должен быть .txt): school_library = "central" school_canteen = "Nothernwall"

Ожидаемое требование:

Называя его одной искрой-отправкой:

spark-submit --master yarn \
--deploy-mode cluster \
--jars sample.jar \
/home/user/helloworld.py  configurations.school_library

Вызывая это в другой искрой-отправке:

spark-submit --master yarn \
--deploy-mode cluster \
--jars sample.jar \
/home/user/helloworld.py  configurations.school_canteen

Вызов обоих в другой свече-отправке:

spark-submit --master yarn \
--deploy-mode cluster \
--jars sample.jar \
/home/user/helloworld.py  configurations.school_library configurations.school_canteen

Ответы [ 2 ]

0 голосов
/ 30 августа 2018

Можно использовать параметр Spark-submit "--properties-file". Имена свойств должны начинаться с «искры». префикс, например:

spark.mykey=myvalue

Значения в этом случае извлекаются из конфигурации (SparkConf)

0 голосов
/ 30 августа 2018

Да.

Вы можете сделать это по конф. --files

Например, вы отправляете задание на запуск с файлом конфигурации: /data/config.conf:

./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master yarn \
  --deploy-mode cluster 
  --executor-memory 20G \
  --num-executors 50 \
  --files /data/config.conf \
  /path/to/examples.jar

И этот файл будет загружен и помещен в рабочий каталог на драйвере. Таким образом, вы должны получить доступ по его имени.

Ex:

new FileInputStream("config.conf")
...