Я пытаюсь загрузить файл размером 100 ГБ json в фрейм данных spark и создаю временный вид на него. Затем я запрашиваю данные в этом представлении с помощью запроса
select * from <table_view> limit 1;
Но запрос не завершается, а выдает ошибку Caused by : java.lang.OutOfMemoryError: GC Overhead limit exceeded.
Я выполняю свой код в кластере блоков данных. Вот мои данные кластера:
Cluster Mode : standard
Databricks runtime Version : 6.1(Apache Spark 2.4.4)
Worker Type : 56 GB Memory, 16 cores 3 DBU (min worker= 2, max worker = 8)
Driver Type : 56 GB Memory, 16 cores 3 DBU
Я попытался установить следующие параметры конфигурации, но не добился успеха.
spark.conf.set("spark.executor.memory", '50g')
spark.conf.set('spark.executor.cores', '5')
spark.conf.set('spark.cores.max', '16')
spark.conf.set("spark.driver.memory",'30g')
spark.conf.set("spark.yarn.executor.memoryOverhead",4096)
Я очень новичок в apache spark. Пожалуйста, дайте мне знать, если требуются другие детали.