Используйте virtualenv для запуска задач pyspark - PullRequest
0 голосов
/ 03 июня 2019

Я пытаюсь запустить spark-submit для запуска задач pyspark с использованием пользовательских виртуальных сред [SPARK-13587] , но безуспешно. Я работаю над Hortonworks 3.0 с Hadoop и YARN 3.1, pyhton 2.7 и kerberos. Я установил virtualenv во все узлы, а также создал домашнюю папку. Я следовал этому учебнику , но получаю следующую ошибку:

Вызвано: java.lang.RuntimeException: не удалось запустить команду: virtualenv_application_1559224307694_0022_0 / bin / python -m pip --cache-dir / home / darguelles install -r Requeriment.txt

Что не так? Где находится пряжа, создающая папку virtualenv_application_1559224307694_0022_0?

spark-submit --master yarn --deploy-mode client \
    --conf spark.pyspark.virtualenv.enabled=true  \
    --conf spark.pyspark.virtualenv.type=native \
    --conf spark.pyspark.virtualenv.requirements=/home/darguelles/requeriments.txt \
    --conf spark.pyspark.virtualenv.bin.path=/usr/bin/virtualenv  \
    --conf spark.pyspark.python=/usr/bin/python \
    spark_virtualenv.py

spark_virtualenv.py

from pyspark import SparkContext
if __name__ == "__main__":
      sc = SparkContext(appName="Simple App")
      import numpy as np
      sc.parallelize(range(1,10)).map(lambda x : np.__version__).collect()

requeriments.txt:

numpy==1.15.3
pandas==0.24.2
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...