Я хотел бы запустить задание PySpark локально, используя указанную c версию Had oop (скажем, имел oop - aws 2.8.5) из-за некоторых функций.
Версии PySpark, похоже, соответствуют версиям Spark.
Здесь я использую PySpark 2.4.5, который, кажется, оборачивает Spark 2.4.5.
При отправке моего задания PySpark, используя spark-submit --local[4] ...
, с параметром --conf spark.jars.packages=org.apache.hadoop:hadoop-aws:2.8.5
, я сталкиваюсь с следующая ошибка:
py4j.protocol.Py4JJavaError: An error occurred while calling o32.sql
Со следующими java исключениями:
java.lang.NoClassDefFoundError: org/apache/hadoop/fs/StorageStatistics
Или:
java.lang.IllegalAccessError: tried to access method org.apache.hadoop.metrics2.lib.MutableCounterLong.<init (Lorg/apache/hadoop/metrics2/MetricsInfo;J)V from class org.apache.hadoop.fs.s3a.S3AInstrumentation
Я полагаю, что Задание Pyspark Если версия oop не выровнена с версией, которую я передаю опции spark-submit
spark.jars.packages
.
Но я понятия не имею, как я могу заставить ее работать? :)