Добавление библиотеки Pandas в Spark без установки ее вручную на узлы кластера - PullRequest
0 голосов
/ 26 октября 2018

У меня проблема с использованием Python на Spark.Я хочу использовать Панд на Spark, и я не нахожу правильный способ сделать это.Я знаю, что есть возможность добавлять заархивированные библиотеки / пакеты с помощью команды --py-files.Я уже пробовал следующий код:

# main code
spark = SparkSession.builder.appName("trial").enableHiveSupport().getOrCreate()
dirname = os.path.dirname(__file__)
filename = os.path.join(dirname, 'pandas0.2.34.zip')
spark.sparkContext.addPyFile(filename) 
import pandas
.....

Я запускаю задание spark следующим образом:

spark-submit --master yarn --deploy-mode client --py-files pandas0.2.34.zip main.py

Но у меня возникает следующая ошибка:

ImportError: No module named pandas

Я скачал библиотеку панд и заархивировал вручную:

zip -r ../pandas0.2.34.zip

Я не знаю, правильный ли это подход или я допустил какую-то ошибку.Я открыт для любого другого возможного решения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...