Я пытаюсь запустить spark-submit для запуска задач pyspark с использованием пользовательских виртуальных сред [SPARK-13587] , но безуспешно. Я работаю над Hortonworks 3.0 с Hadoop и YARN 3.1, pyhton 2.7 и kerberos. Я установил virtualenv во все узлы, а также создал домашнюю папку. Я следовал этому учебнику , но получаю следующую ошибку:
Вызвано: java.lang.RuntimeException: не удалось запустить команду: virtualenv_application_1559224307694_0022_0 / bin / python -m pip --cache-dir / home / darguelles install -r Requeriment.txt
Что не так? Где находится пряжа, создающая папку virtualenv_application_1559224307694_0022_0
?
spark-submit --master yarn --deploy-mode client \
--conf spark.pyspark.virtualenv.enabled=true \
--conf spark.pyspark.virtualenv.type=native \
--conf spark.pyspark.virtualenv.requirements=/home/darguelles/requeriments.txt \
--conf spark.pyspark.virtualenv.bin.path=/usr/bin/virtualenv \
--conf spark.pyspark.python=/usr/bin/python \
spark_virtualenv.py
spark_virtualenv.py
from pyspark import SparkContext
if __name__ == "__main__":
sc = SparkContext(appName="Simple App")
import numpy as np
sc.parallelize(range(1,10)).map(lambda x : np.__version__).collect()
requeriments.txt:
numpy==1.15.3
pandas==0.24.2