Как использовать, использовать сжатые файлы в приложении pySpark 1.6, переданном через --archive в команде spark-submit - PullRequest
0 голосов
/ 03 апреля 2019

Я создал pyFiles.zip & sql.zip и у меня ниже структура каталогов.

pyFiles.zip
- module1
  - module1.py
- main.py

sql.zip
- module1
  - module1.sql

Моя команда spark-submit выглядит следующим образом:

spark-submit --master yarn-client  --driver-memory 4g --py-files /home/valli/pyFiles.zip --archives /home/valli/sql.zip /home/valli/pyFiles.zip/main.py --sqls-path /home/valli/sql.zip

Когда я запускаюПриведенная выше команда выдает ошибку ниже.

can't find '__main__' module in '/home/valli/pyFiles.zip/main.py'

Но когда я использовал main.py вне папки zip, как показано ниже, я могу вызвать module1.

spark-submit --master yarn-client  --driver-memory 4g --py-files /home/valli/pyFiles.zip --archives /home/valli/sql.zip /home/valli/main.py --sqls-path /home/valli/sql.zip 

Inприведенный выше случай вызовет module1.py, и он пытается прочитать файл SQL, но я получаю исключение SQL файла, не найденное, как показано ниже.

File not found: 'home/valli/sql.zip/module1/module1.sql'

Может кто-нибудь подсказать, как использовать zip-файлы .py и.Файлы sql в команде spark-submit.

EDIT :

Когда я запустил вторую команду spark-submit, zip-файлы сохраняются в промежуточном каталоге.Я могу получить applicationID от sparkContext.Но я не получаю полный URL-адрес промежуточной директории.

Пожалуйста, предложите мне, как получить путь промежуточной директории для доступа к заархивированным файлам, хотя --archive в команде spark-submit

Заранее спасибо.

...