Читайте из ресурсов при запуске Spark в Yarn - PullRequest
0 голосов
/ 12 февраля 2019

В моей работе Spark я читаю некоторые дополнительные данные из файлов ресурсов.

Некоторые примеры Resources.getResource("/more-data")

Он отлично работает локально, и когда я запускаю из spark-submit master = local [*] Мне нужно только добавить --conf = spark.driver.extraClassPath = moredata.

При переходе в режим кластера (пряжа) он больше не может найти папку.

Iпробовал spark.yarn.dist.files, без посторонней помощи, может мне нужно что то добавить к этому?

1 Ответ

0 голосов
/ 12 февраля 2019

Если вы используете приложение spark в режиме Yarn, у вас есть несколько файловых ресурсов в папке more-data.Вместо того, чтобы распространять папку, распределите все ресурсы.

В зависимости от типа ресурса, который будет распределен, у нас есть следующие опции:

spark.yarn.dist.jars

spark.yarn.dist.jars (по умолчанию: пусто) - это коллекция дополнительных jar-файлов для распространения.

Используется, когда Клиент распределяет дополнительные ресурсы, как указано с помощью команды --jars.опция -line для spark-submit.

spark.yarn.dist.files

spark.yarn.dist.files (по умолчанию: пусто) представляет собой набор дополнительныхфайлы для распространения.

Используется, когда Клиент распределяет дополнительные ресурсы в соответствии с параметром командной строки --files для spark-submit.

spark.yarn.dist.archives

spark.yarn.dist.archives (по умолчанию: пусто) - это коллекция дополнительных архивов для распространения.

Используется, когда Клиент распределяет дополнительные ресурсы, как указано с помощью команды --archives.опциядля spark-submit.

Дополнительную информацию можно найти по адресу https://jaceklaskowski.gitbooks.io/mastering-apache-spark/yarn/spark-yarn-settings.html

. Будьте внимательны при доступе к ресурсам.

пример: spark-submit -files / folder-name / fileName

Упомянутый ресурс должен быть доступен как fileName в коде

...