Я новичок в pySpark.Я использовал --py-files, как показано ниже в команде spark-submit, чтобы скопировать все файлы на рабочие узлы.
spark-submit --master yarn-client --driver-memory 4g --py-files /home/valli/pyFiles.zip /home/valli/main.py
В журналах я заметил, что он хранит pyFiles.zip в каталоге .sparkStaging, как показано ниже.
hdfs://cdhstltest/user/valli/.sparkStaging/application_1550968677175_9659/pyFiles.zip
Когда я скопировал указанный выше файл в мой конкретный локальный каталог, он все еще отображается как zip-файл и не может прочитать файлы в нем.Но когда я пытаюсь узнать текущую директорию файлов, она отображается с помощью hdfs_directory / pyfiles.zip / module1.py и способна выполнить py-файл.Насколько я знаю, --py-files скопирует все .py файлы в zip-папке в рабочие узлы, автоматически разархивировав.
Может кто-нибудь помочь мне понять, что происходит за экраном?
Заранее спасибо.