Вы должны установить пакеты на всех рабочих узлах.Вы можете использовать cssh , чтобы сделать вашу жизнь немного проще.
Альтернативой предварительной установке каждого пакета pip является использование файла require.txt (и предпочтительно виртуальной среды).Чтобы использовать файл require.txt, просто запустите spark-submit со следующими параметрами:
--conf spark.pyspark.virtualenv.enabled=true
--conf spark.pyspark.virtualenv.type=native
--conf spark.pyspark.virtualenv.requirements=/Users/jzhang/github/spark/requirements.txt
--conf spark.pyspark.virtualenv.bin.path=/Users/jzhang/anaconda/bin/virtualenv
--conf spark.pyspark.python=/usr/local/bin/python3 spark_virtualenv.py
Дополнительную информацию можно найти по адресу 2 .