как --py-files работает внутри pyspark - PullRequest
0 голосов
/ 05 апреля 2019

Я новичок в pySpark.Я использовал --py-files, как показано ниже в команде spark-submit, чтобы скопировать все файлы на рабочие узлы.

spark-submit --master yarn-client  --driver-memory 4g --py-files /home/valli/pyFiles.zip /home/valli/main.py

В журналах я заметил, что он хранит pyFiles.zip в каталоге .sparkStaging, как показано ниже.

hdfs://cdhstltest/user/valli/.sparkStaging/application_1550968677175_9659/pyFiles.zip

Когда я скопировал указанный выше файл в мой конкретный локальный каталог, он все еще отображается как zip-файл и не может прочитать файлы в нем.Но когда я пытаюсь узнать текущую директорию файлов, она отображается с помощью hdfs_directory / pyfiles.zip / module1.py и способна выполнить py-файл.Насколько я знаю, --py-files скопирует все .py файлы в zip-папке в рабочие узлы, автоматически разархивировав.

Может кто-нибудь помочь мне понять, что происходит за экраном?

Заранее спасибо.

...