Я пытаюсь отобразить фрейм данных в PySpark после чтения файлов с помощью функции / подпрограммы. Чтение файлов очень хорошо работает, но не работает дисплей. На самом деле, из-за ленивой оценки, это может быть неверно.
Я получаю эту ошибку
SparkException: Job aborted due to stage failure: Total size of serialized results of 29381 tasks (4.0 GB) is bigger than spark.driver.maxResultSize (4.0 GB)
, поэтому я делаю то, что было предложено https://forums.databricks.com/questions/66/how-do-i-work-around-this-error-when-using-rddcoll.html
sqlContext.setConf("spark.driver.maxResultSize", "8g")
sqlContext.getConf("spark.driver.maxResultSize")
однако, странная часть, эта возвращает ту же ошибку , когда я повторно запускаю команду display(df)
.
Как будто Spark просто игнорирует мои команды .
Я пытался увеличить количество работников и увеличить как тип работника, так и тип драйвера, но ни один из них ничего не исправил.
Как я могу заставить это работать? или это ошибка в Databricks / Spark?