Подход к управлению зависимостями PySpark - PullRequest
0 голосов
/ 22 января 2020

Не могли бы вы объяснить мне плюсы и минусы следующих подходов к распространению искрового кода среди работников по производству свечей

  1. Этот подход . Добавьте --py-files jobs.zip,libs.zip к вашей команде spark-submit. Где jobs.zip - это просто ваши ZIP-файлы .py, а libs.zip - это .py файлы зависимостей, построенные с pip install -r requirements
  2. Этот подход . Добавьте --py-files jobs.whl,dep1.whl,dep2.whl,... к вашей команде spark-submit. Как и в первом подходе, но вместо zip у вас есть файлы колес, а вместо двух файлов у вас столько же файлов, сколько и зависимостей. Файлы колес построены с pip wheel -r requirements.txt. Вы можете динамически создать список файлов колес в сценарии отправки.

Какие преимущества вы получаете от использования второго подхода по сравнению с первым? Есть ли третий вариант лучше, чем первые два?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...