Ссылка на файлы из почтового индекса, которые загружаются через Spark Submit - PullRequest
0 голосов
/ 13 ноября 2018

Пытаюсь запустить потоковое задание Spark [Родительское задание], основываясь на некоторых условиях, когда другая отправка Spark [Дочернее задание] динамически оформляется и отправляется через существующее родительское задание. Детская работа, кажется, терпит неудачу с

Exception in thread "main" java.lang.IllegalArgumentException: Invalid properties file 'filename'

Пройдя через это, мы смогли обнаружить, что файл отсутствует в узле, где отправляется дочернее задание. Так что в качестве обходного пути мы поместили файл в HDFS и указали местоположение в отправке spark, но он все равно не смог его распознать.

spark-submit --name "Child_Job" --master  yarn --deploy-mode cluster --executor-cores 2 --driver-cores 1    --driver-memory 2g --num-executors 2 --executor-memory 1g --archives "HDFS_FILE1#FILE1,HDFS_FILE2.zip#FILE2" --properties-file "HDFS_PROPERTY_FILE" --py-files "HDFS_FILE2.zip" FILE2/Test.py 

в качестве альтернативы попробовал --archives и --files, но все равно не повезло, не удалось сослаться на файлы в рамках отправки с помощью spark.

Опции --files и --archives поддерживают указание имен файлов с # похож на Hadoop. Например, вы можете указать: --files localtest.txt # appSees.txt, и это загрузит ваш файл локально с именем localtest.txt в HDFS, но это будет связано с имя appSees.txt, и ваше приложение должно использовать имя как appSees.txt для ссылки на него при работе на YARN.

Любые предложения или обходные пути были бы очень полезны, пожалуйста, дайте мне знать, если потребуется дополнительная информация.

...