Я выполняю вычисления в кластере, и в конце, когда я запрашиваю сводную статистику по моему фрейму данных Spark с помощью df.describe (). Show (), я получаю сообщение об ошибке:
Сериализованная задача 15: 0было 137500581 байт, что превышает максимально допустимое значение: spark.rpc.message.maxSize (134217728 байт).Попробуйте увеличить spark.rpc.message.maxSize или использовать широковещательные переменные для больших значений
В моей конфигурации Spark я уже пытался увеличить вышеупомянутый параметр:
spark = (SparkSession
.builder
.appName("TV segmentation - dataprep for scoring")
.config("spark.executor.memory", "25G")
.config("spark.driver.memory", "40G")
.config("spark.dynamicAllocation.enabled", "true")
.config("spark.dynamicAllocation.maxExecutors", "12")
.config("spark.driver.maxResultSize", "3g")
.config("spark.kryoserializer.buffer.max.mb", "2047mb")
.config("spark.rpc.message.maxSize", "1000mb")
.getOrCreate())
Я также пытался перераспределить своис использованием кадра данных:
dfscoring = dfscoring.repartition (100)
, но я продолжаю получать ту же ошибку.
Мое окружение: Python 3.5, Anaconda 5.0, Spark 2
Как избежать этой ошибки?