Мы передаем несколько ZIP-файлов на Spark-Submit
с параметрами --py-files
, пример ниже.
spark-submit --master yarn \
--name Application \
--deploy-mode cluster \
--driver-memory 3g \
--py-files "/<PATH>/Specific_App.zip","/<PATH>/Utilities.zip"
Во время работы Spark Application я понимаю, что ZIP-файлы разархивируются во время выполнениявремя доступа к файлам (модулям) Python.Теперь у меня есть несколько вопросов на этот счет ...
- Разархивированы ли ZIP-файлы и хранятся ли они в MEMORY
- Как узнать, есть ли файлыправильно разархивированы в приложении Spark
- Создает ли разархивирование файлов родительскую папку с тем же именем, что и файл ZIP
- Допустим, в моем сценарии оба моих файла ZIP имеют общую древовидную структуруНапример, (у parent / child1 / child2 нет никаких файлов, кроме только дочернего подкаталога)
Utilities.zip -> parent/child1/child2/utilities/
Specific_App.zip -> parent/child1/child2/Specific_App/
В этомСценарий, в котором при распаковке ZIP-файлов возникнут проблемы, например, Specific_App.zip разархивирует структуру папок parent / child1 / child2 уже будет доступен, если Utilities.zip был разархивирован ранее.
Я получаюОшибка модуля не найдена, и вы увидите, что импортированный модуль находится в правильном пути в файле Utilities.zip.
Пожалуйста, дайте мне знать, если требуется дополнительная информация.