спарк-коп передача файлов питона в zip не работает - PullRequest
0 голосов
/ 05 июля 2018

Я пытаюсь отправить приложение Python, используя spark-submit, например:

spark-submit \
    --conf spark.submit.pyFiles=path/to/archive.zip \
    --conf spark.app.name=Test123 \
    --conf spark.master=local[2] \
    --conf spark.driver.memory=5G \
    path/to/python_app.py

python_app.py пытается импортировать модули из archive.zip, но завершается неудачно с ModuleNotFoundError. Если я подставлю

--conf spark.submit.pyFiles=path/to/archive.zip

с

--py-files path/to/archive.zip

работает как положено. Это действительно странно, потому что настройка master, памяти драйвера и имени приложения работает с использованием --conf.

Что мне здесь не хватает? Спасибо!

Изменить 2018-07-06: Я пробовал это с версиями Spark 2.1.3, 2.2.0 и 2.3.1 - проблема одинакова для всех трех версий. И: У меня есть проблема, независимо от того, отправляете ли вы на local[x] или yarn.

1 Ответ

0 голосов
/ 13 июля 2018

У меня недавно была такая же проблема. Я полагаю, что название может вводить в заблуждение здесь.

настройка spark.submit.pyFiles указывает только то, что вы хотите добавить их к PYTHONPATH . Но кроме этого вам нужно загрузить эти файлы во все рабочие каталоги ваших исполнителей . Вы можете сделать это с spark.files

Для меня это делает работу. Я устанавливаю эти значения в spark-defauls.conf

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...