Question

У меня проблема с pyspark.Я могу запустить свой кластер, когда я загружаю pysparkshell из командной строки aka:

pyspark --total-executor-cores 5 --executor-memory 3g

, но когда я запускаю python и пытаюсь загрузить кластер, используя код:

from pyspark import SparkConf
from pyspark import SparkContext

conf = SparkConf() \
.setAppName('PySparkShell') \
.setMaster('url_to_cluster') \
.set('spark.executor.memory', '2g') \
.set('spark.cores.max', '6') \
.set('spark.sql.catalogImplementation', 'hive') \
.set('spark.submit.deployMode', 'client') \
.set('spark.executor.id', 'driver') \
.set('spark.rdd.compress', 'True') \
.set('spark.serializer.objectStreamReset', '100') \
.set('spark.ui.showConsoleProgress', 'true')

sc = SparkContext(conf = conf)

У меня возникает следующая проблема:

ERROR TransportRequestHandler:193 - Error while invoking RpcHandler#receive() on RPC id 6381742667596359353
    java.io.InvalidClassException: org.apache.spark.storage.BlockManagerId; local class incompatible: stream classdesc serialVersionUID = 6155820641931972170, local class serialVersionUID = -3720498261147521052

У кого-нибудь есть опыт работы с этим?Я не могу найти другую проблему, как эта онлайн

pysparkshell работает, но не python -> pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

pysparkshell работает, но не python -> pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов