local: // схема для отправки pyspark - PullRequest
0 голосов
/ 18 июня 2020

Это связано с Pyspark: запустить скрипт из архива

Я могу запустить эту команду:

PYSPARK_PYTHON=./pkg/venv/bin/python3 \ 
spark-submit \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./pkg/venv/bin/python3 \
--master yarn \
--deploy-mode cluster \
--archives hdfs:///package.tgz#pkg \
local://pkg/app/MyScript.py 

На бумаге это прекрасно: my сценарий внутри package.tgz, поэтому мне не нужен дополнительный стартовый сценарий, все самодостаточно.

Дело в том, что я помещаю в локальный uri (single / double / triple / , префикс с ., rubbi sh), сохраняется только последняя часть uri, и в конечном итоге команда запускается

./pkg/venv/bin/python3 MyScript.py

, где pkg/app были удалены. И, конечно же, file does not exist.

Что я могу сделать, чтобы сохранить полный URI?

...