Как установить пользовательские библиотеки Python из кода Python spark-submit - PullRequest
0 голосов
/ 12 марта 2019

Я хочу иметь возможность запустить команду, например spark-submit test_file.py --dependencies= adobe_analytics, которая выполняет следующие задачи

  1. Устанавливает библиотеки, которые передаются в параметре dependencies
  2. Делает эти библиотекидоступно в сеансе Spark, который запускается с помощью команды spark-submit

Мой test_file.py выглядит следующим образом -

from pyspark.sql import SparkSession
# import all libraries here 
from adobe_analytics import Client
spark = SparkSession.builder.master("yarn").appName("myapp").enableHiveSupport().getOrCreate()
#.... more logic

Этот код работает в кластере Google Dataproc,Вот ссылка для пользовательской библиотеки, которую мне нужно установить -

https://github.com/SaturnFromTitan/adobe_analytics

Как лучше всего решить эту проблему?

1 Ответ

1 голос
/ 12 марта 2019

Я не уверен, правильно ли я вас понял, но у меня была похожая проблема в проекте, над которым я работал, и наш обходной путь заключался в том, чтобы сжать нашу пользовательскую библиотеку и передать ее через параметр в spark-submitкоманда:

spark-submit --py-files libs/customlib.zip file.py
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...