Попытка отправить нижеприведенное приложение Spark test.py в кластер YARN с помощью следующей команды
PYSPARK_PYTHON=./venv/venv/bin/python spark-submit --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./venv/venv/bin/python --master yarn --deploy-mode cluster --archives venv#venv test.py
Примечание. Я не использую локальный режим, но пытаюсь использовать python3 .7 site-пакеты под virtualenv, используемые для сборки кода в PyCharm. Virtualenv предоставляет пользовательские пакеты приложений, которые не предоставляются в качестве кластерных служб
. Так выглядит структура проекта Python вместе с содержимым каталога venv
-rw-r--r-- 1 schakrabarti nobody 225908565 Feb 26 13:07 venv.tar.gz
-rw-r--r-- 1 schakrabarti nobody 1313 Feb 26 13:07 test.py
drwxr-xr-x 6 schakrabarti nobody 4096 Feb 26 13:07 venv
drwxr-xr-x 3 schakrabarti nobody 4096 Feb 26 13:07 venv/bin
drwxr-xr-x 3 schakrabarti nobody 4096 Feb 26 13:07 venv/share
-rw-r--r-- 1 schakrabarti nobody 75 Feb 26 13:07 venv/pyvenv.cfg
drwxr-xr-x 2 schakrabarti nobody 4096 Feb 26 13:07 venv/include
drwxr-xr-x 3 schakrabarti nobody 4096 Feb 26 13:07 venv/lib
Получение той же ошибки файла не существует - pyspark.zip (как показано ниже)
java.io.FileNotFoundException: File does not exist: hdfs://hostname-nn1.cluster.domain.com:8020/user/schakrabarti/.sparkStaging/application_1571868585150_999337/pyspark.zip
Пожалуйста, обратитесь к моим комментариям, добавленным на Spark-10795: https://issues.apache.org/jira/browse/SPARK-10795