Question

У меня проблема с использованием Python на Spark.Я хочу использовать Панд на Spark, и я не нахожу правильный способ сделать это.Я знаю, что есть возможность добавлять заархивированные библиотеки / пакеты с помощью команды --py-files.Я уже пробовал следующий код:

# main code
spark = SparkSession.builder.appName("trial").enableHiveSupport().getOrCreate()
dirname = os.path.dirname(__file__)
filename = os.path.join(dirname, 'pandas0.2.34.zip')
spark.sparkContext.addPyFile(filename) 
import pandas
.....

Я запускаю задание spark следующим образом:

spark-submit --master yarn --deploy-mode client --py-files pandas0.2.34.zip main.py

Но у меня возникает следующая ошибка:

ImportError: No module named pandas

Я скачал библиотеку панд и заархивировал вручную:

zip -r ../pandas0.2.34.zip

Я не знаю, правильный ли это подход или я допустил какую-то ошибку.Я открыт для любого другого возможного решения.

Добавление библиотеки Pandas в Spark без установки ее вручную на узлы кластера

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Добавление библиотеки Pandas в Spark без установки ее вручную на узлы кластера

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов