Я создал pyFiles.zip & sql.zip и у меня ниже структура каталогов.
pyFiles.zip
- module1
- module1.py
- main.py
sql.zip
- module1
- module1.sql
Моя команда spark-submit выглядит следующим образом:
spark-submit --master yarn-client --driver-memory 4g --py-files /home/valli/pyFiles.zip --archives /home/valli/sql.zip /home/valli/pyFiles.zip/main.py --sqls-path /home/valli/sql.zip
Когда я запускаюПриведенная выше команда выдает ошибку ниже.
can't find '__main__' module in '/home/valli/pyFiles.zip/main.py'
Но когда я использовал main.py вне папки zip, как показано ниже, я могу вызвать module1.
spark-submit --master yarn-client --driver-memory 4g --py-files /home/valli/pyFiles.zip --archives /home/valli/sql.zip /home/valli/main.py --sqls-path /home/valli/sql.zip
Inприведенный выше случай вызовет module1.py, и он пытается прочитать файл SQL, но я получаю исключение SQL файла, не найденное, как показано ниже.
File not found: 'home/valli/sql.zip/module1/module1.sql'
Может кто-нибудь подсказать, как использовать zip-файлы .py и.Файлы sql в команде spark-submit.
EDIT :
Когда я запустил вторую команду spark-submit, zip-файлы сохраняются в промежуточном каталоге.Я могу получить applicationID от sparkContext.Но я не получаю полный URL-адрес промежуточной директории.
Пожалуйста, предложите мне, как получить путь промежуточной директории для доступа к заархивированным файлам, хотя --archive в команде spark-submit
Заранее спасибо.