Я пытаюсь передать несколько файлов sql в модуль pyspark, используя опцию --archives в режиме yarn-client.
.zip файл копируется в промежуточный каталог работника, но файл не распаковывается. Я тоже пытался с файлом tar.gz, но не повезло.
Это моя команда spark-submit.
PYSPARK_PYTHON=/usr/local/bin/pyenv2.7/bin/python spark-submit --master yarn-client --driver-memory 4g --py-files /XXX/XXXX/XXXXX/pyFiles.zip --archives /XXX/XXXX/XXXX/sqls.zip#sqls main.py --sqls-path sqls
Мое требование - скопировать zip-файл, прочитать отдельные sqls в драйвере pyspark и выполнить их, используя hivecontext.