У меня проблема с использованием Python на Spark.Я хочу использовать Панд на Spark, и я не нахожу правильный способ сделать это.Я знаю, что есть возможность добавлять заархивированные библиотеки / пакеты с помощью команды --py-files.Я уже пробовал следующий код:
# main code
spark = SparkSession.builder.appName("trial").enableHiveSupport().getOrCreate()
dirname = os.path.dirname(__file__)
filename = os.path.join(dirname, 'pandas0.2.34.zip')
spark.sparkContext.addPyFile(filename)
import pandas
.....
Я запускаю задание spark следующим образом:
spark-submit --master yarn --deploy-mode client --py-files pandas0.2.34.zip main.py
Но у меня возникает следующая ошибка:
ImportError: No module named pandas
Я скачал библиотеку панд и заархивировал вручную:
zip -r ../pandas0.2.34.zip
Я не знаю, правильный ли это подход или я допустил какую-то ошибку.Я открыт для любого другого возможного решения.