Раздача баночки для использования в писпарке - PullRequest
1 голос
/ 02 мая 2020

Я создал банку, которую я могу использовать из pyspark, добавив ее в ${SPARK_HOME}/jars и вызвав ее, используя

spark._sc._jvm.com.mypackage.myclass.mymethod()

, однако я хотел бы сделать следующее: Скомпонуйте эту банку в колесо python, чтобы кто-нибудь мог установить ее в свою сессию pyspark / jupyter. Я не очень знаком с упаковкой python. Можно ли распределять банки внутри колеса, и эта банка автоматически доступна для pyspark?

Я хочу положить банку в колесо или яйцо (не даже уверен, смогу ли я это сделать ???) и после установки указанного колеса / яйца вытащите эту банку в месте, где она будет доступна для jvm.

Я думаю, что я действительно спрашиваю, Как мне сделать так, чтобы кто-то мог установить сторонний jar-файл и использовать его из pyspark?

1 Ответ

1 голос
/ 03 мая 2020

Как вы упомянули выше, и надеюсь, что вы уже использовали опцию --jars и можете использовать функцию в pyspark. Как правильно поняли ваши требования, вы хотите добавить этот jar-файл в установочный пакет, чтобы библиотека jar была доступна на каждом узле кластера.

В кирпичах данных найден один источник, в котором говорится о добавлении pyspark сторонних jar-файлов python колесо установки. Смотрите, если это только информация, которую вы смотрите.

https://docs.databricks.com/libraries.html#upload -a-jar- python -egg-or- python -колесное колесо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...