Question

Я хочу иметь возможность запустить команду, например spark-submit test_file.py --dependencies= adobe_analytics, которая выполняет следующие задачи

Устанавливает библиотеки, которые передаются в параметре dependencies
Делает эти библиотекидоступно в сеансе Spark, который запускается с помощью команды spark-submit

Мой test_file.py выглядит следующим образом -

from pyspark.sql import SparkSession
# import all libraries here 
from adobe_analytics import Client
spark = SparkSession.builder.master("yarn").appName("myapp").enableHiveSupport().getOrCreate()
#.... more logic

Этот код работает в кластере Google Dataproc,Вот ссылка для пользовательской библиотеки, которую мне нужно установить -

https://github.com/SaturnFromTitan/adobe_analytics

Как лучше всего решить эту проблему?

IWHKYB · Answer 1 · 12 марта 2019

Я не уверен, правильно ли я вас понял, но у меня была похожая проблема в проекте, над которым я работал, и наш обходной путь заключался в том, чтобы сжать нашу пользовательскую библиотеку и передать ее через параметр в spark-submitкоманда:

spark-submit --py-files libs/customlib.zip file.py

Как установить пользовательские библиотеки Python из кода Python spark-submit

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как установить пользовательские библиотеки Python из кода Python spark-submit

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов