Это связано с Pyspark: запустить скрипт из архива
Я могу запустить эту команду:
PYSPARK_PYTHON=./pkg/venv/bin/python3 \
spark-submit \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./pkg/venv/bin/python3 \
--master yarn \
--deploy-mode cluster \
--archives hdfs:///package.tgz#pkg \
local://pkg/app/MyScript.py
На бумаге это прекрасно: my сценарий внутри package.tgz, поэтому мне не нужен дополнительный стартовый сценарий, все самодостаточно.
Дело в том, что я помещаю в локальный uri (single / double / triple /
, префикс с .
, rubbi sh), сохраняется только последняя часть uri, и в конечном итоге команда запускается
./pkg/venv/bin/python3 MyScript.py
, где pkg/app
были удалены. И, конечно же, file does not exist
.
Что я могу сделать, чтобы сохранить полный URI?