Я хочу иметь возможность запустить команду, например spark-submit test_file.py --dependencies= adobe_analytics
, которая выполняет следующие задачи
- Устанавливает библиотеки, которые передаются в параметре
dependencies
- Делает эти библиотекидоступно в сеансе Spark, который запускается с помощью команды
spark-submit
Мой test_file.py
выглядит следующим образом -
from pyspark.sql import SparkSession
# import all libraries here
from adobe_analytics import Client
spark = SparkSession.builder.master("yarn").appName("myapp").enableHiveSupport().getOrCreate()
#.... more logic
Этот код работает в кластере Google Dataproc,Вот ссылка для пользовательской библиотеки, которую мне нужно установить -
https://github.com/SaturnFromTitan/adobe_analytics
Как лучше всего решить эту проблему?