Pyspark: пакеты Python на сервере исполнителя - PullRequest
0 голосов
/ 20 октября 2018

Я только начал работать с Pyspark над новым приложением .. Я установил с помощью pip все необходимые мне пакеты (зависимости моего приложения) на сервере, на котором работает spark-submit.Нужно ли устанавливать пакеты python моего приложения на другие шлюзы spark?

Спасибо.

1 Ответ

0 голосов
/ 20 октября 2018

Вы должны установить пакеты на всех рабочих узлах.Вы можете использовать cssh , чтобы сделать вашу жизнь немного проще.

Альтернативой предварительной установке каждого пакета pip является использование файла require.txt (и предпочтительно виртуальной среды).Чтобы использовать файл require.txt, просто запустите spark-submit со следующими параметрами:

--conf spark.pyspark.virtualenv.enabled=true  
--conf spark.pyspark.virtualenv.type=native 
--conf spark.pyspark.virtualenv.requirements=/Users/jzhang/github/spark/requirements.txt 
--conf spark.pyspark.virtualenv.bin.path=/Users/jzhang/anaconda/bin/virtualenv 
--conf spark.pyspark.python=/usr/local/bin/python3 spark_virtualenv.py

Дополнительную информацию можно найти по адресу 2 .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...