Question

Я работаю над edgenode, где некоторые библиотеки, такие как pandas, sqlalchemy, которые я установил вручную, потому что прокси-сервер слишком ограничен.

Я пытаюсь добавить эти библиотеки в мое задание spark, чтобы развернуть его в кластере, гдебиблиотеки не установлены, я знаю, что для этого нужно добавить некоторые параметры

spark-submit --master yarn-cluster --deploy-mode cluster --queue high --py-files filesToAdd sparkjob.py

Но я не знаю, какой "filesToAdd" мне нужно поместить в командную строкуэто исходный код библиотеки? это определенная часть этого? это что-то еще?

Artem Vovsia · Answer 1 · 14 октября 2019

Вы не можете добавлять библиотеки с --py-файлами. Все библиотеки, такие как pandas, sqlalchemy и другие, должны быть установлены на каждом узле кластера.

--py-files аргумент должен использоваться для распространения вашего кода приложения в кластере. Подробнее см. https://spark.apache.org/docs/latest/submitting-applications.html

Где я могу найти файлы .py, которые нужно добавить в мою иск-отправку?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Где я могу найти файлы .py, которые нужно добавить в мою иск-отправку?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов