Как установить KryoSerializer в Pyspark? - PullRequest
0 голосов
/ 16 марта 2020

Я новичок в Pyspark. Пожалуйста, помогите мне с этим:

spark = SparkSession.builder.appName("FlightDelayRDD").master("local[*]").getOrCreate()
sc = spark.sparkContext
sc.setSystemProperty("spark.dynamicAllocation.enabled", "true")
sc.setSystemProperty("spark.dynamicAllocation.initialExecutors", "6")
sc.setSystemProperty("spark.dynamicAllocation.minExecutors", "6")
sc.setSystemProperty("spark.dynamicAllocation.schedulerBacklogTimeout", "0.5s")
sc.setSystemProperty("spark.speculation", "true")

Я хочу установить KryoSerializer в pyspark, как я настроил выше.

1 Ответ

0 голосов
/ 16 марта 2020

Из официальных документов:

Начиная с Spark 2.0.0, мы внутренне используем сериализатор Kryo при перетасовке RDD с простыми типами, массивами простых типов или строковым типом.

To set Kryo serializer:

sc.setSystemProperty("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

Для проверки:

spark.sparkContext.getConf().get("spark.serializer")

#u'org.apache.spark.serializer.KryoSerializer'
...