Где я могу найти файлы .py, которые нужно добавить в мою иск-отправку? - PullRequest
0 голосов
/ 14 октября 2019

Я работаю над edgenode, где некоторые библиотеки, такие как pandas, sqlalchemy, которые я установил вручную, потому что прокси-сервер слишком ограничен.

Я пытаюсь добавить эти библиотеки в мое задание spark, чтобы развернуть его в кластере, гдебиблиотеки не установлены, я знаю, что для этого нужно добавить некоторые параметры

spark-submit --master yarn-cluster --deploy-mode cluster --queue high --py-files filesToAdd sparkjob.py

Но я не знаю, какой "filesToAdd" мне нужно поместить в командную строкуэто исходный код библиотеки? это определенная часть этого? это что-то еще?

1 Ответ

0 голосов
/ 14 октября 2019

Вы не можете добавлять библиотеки с --py-файлами. Все библиотеки, такие как pandas, sqlalchemy и другие, должны быть установлены на каждом узле кластера.

--py-files аргумент должен использоваться для распространения вашего кода приложения в кластере. Подробнее см. https://spark.apache.org/docs/latest/submitting-applications.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...