Я относительно новичок в PySpark. Я пытался кэшировать данные 30 ГБ, потому что мне нужно выполнить кластеризацию на них. Таким образом, выполняя любое действие, как count
изначально я получал немного heap space issue
. Так что я погуглил и обнаружил, что увеличение памяти исполнителя / исполнителя сделает это за меня. Итак, вот моя текущая конфигурация
SparkConf().set('spark.executor.memory', '45G')
.set('spark.driver.memory', '80G')
.set('spark.driver.maxResultSize', '10G')
Но теперь я получаю это garbage collection issue
. Я проверял ТАК, но везде ответы довольно расплывчаты. Люди предлагают поиграть с конфигурацией. Есть ли лучший способ выяснить, какой должна быть конфигурация? Я знаю, что это только исключение отладки, и я могу отключить его. Но все же я хочу немного освоить математику для расчета конфигураций самостоятельно.
Я сейчас на сервере с 256 ГБ ОЗУ. Любая помощь приветствуется. Заранее спасибо.