--py-файлы в Spark Submit вызывают модуль не найден - PullRequest
0 голосов
/ 19 июня 2019

Мы передаем несколько ZIP-файлов на Spark-Submit с параметрами --py-files, пример ниже.

spark-submit --master yarn \
--name Application \
--deploy-mode cluster \
--driver-memory 3g \
--py-files "/<PATH>/Specific_App.zip","/<PATH>/Utilities.zip"

Во время работы Spark Application я понимаю, что ZIP-файлы разархивируются во время выполнениявремя доступа к файлам (модулям) Python.Теперь у меня есть несколько вопросов на этот счет ...

  • Разархивированы ли ZIP-файлы и хранятся ли они в MEMORY
  • Как узнать, есть ли файлыправильно разархивированы в приложении Spark
  • Создает ли разархивирование файлов родительскую папку с тем же именем, что и файл ZIP
  • Допустим, в моем сценарии оба моих файла ZIP имеют общую древовидную структуруНапример, (у parent / child1 / child2 нет никаких файлов, кроме только дочернего подкаталога)

Utilities.zip -> parent/child1/child2/utilities/

Specific_App.zip -> parent/child1/child2/Specific_App/

В этомСценарий, в котором при распаковке ZIP-файлов возникнут проблемы, например, Specific_App.zip разархивирует структуру папок parent / child1 / child2 уже будет доступен, если Utilities.zip был разархивирован ранее.

Я получаюОшибка модуля не найдена, и вы увидите, что импортированный модуль находится в правильном пути в файле Utilities.zip.

Пожалуйста, дайте мне знать, если требуется дополнительная информация.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...