У меня проблема с pyspark.Я могу запустить свой кластер, когда я загружаю pysparkshell из командной строки aka:
pyspark --total-executor-cores 5 --executor-memory 3g
, но когда я запускаю python и пытаюсь загрузить кластер, используя код:
from pyspark import SparkConf
from pyspark import SparkContext
conf = SparkConf() \
.setAppName('PySparkShell') \
.setMaster('url_to_cluster') \
.set('spark.executor.memory', '2g') \
.set('spark.cores.max', '6') \
.set('spark.sql.catalogImplementation', 'hive') \
.set('spark.submit.deployMode', 'client') \
.set('spark.executor.id', 'driver') \
.set('spark.rdd.compress', 'True') \
.set('spark.serializer.objectStreamReset', '100') \
.set('spark.ui.showConsoleProgress', 'true')
sc = SparkContext(conf = conf)
У меня возникает следующая проблема:
ERROR TransportRequestHandler:193 - Error while invoking RpcHandler#receive() on RPC id 6381742667596359353
java.io.InvalidClassException: org.apache.spark.storage.BlockManagerId; local class incompatible: stream classdesc serialVersionUID = 6155820641931972170, local class serialVersionUID = -3720498261147521052
У кого-нибудь есть опыт работы с этим?Я не могу найти другую проблему, как эта онлайн