Я разработал код pyspark для загрузки данных в таблицы Hive. Мой источник также таблицы Hive. Мой код работает нормально для всех таблиц, кроме одной таблицы, в которой 650 столбцов. Остальные все таблицы имеют столбцы меньше 100. Ниже в моем коде ошибка с pyspark.sql.utils.Analysisexception: java.lang.OutOfMemoryError: Java heap space
ошибка.
df_table_columns=spark.sql("select * from <Tab>").columns
Я поднял driver memory, executor memory, memory overheads, num cores and executor cores
до максимальных значений, поддерживаемых моим env. также включите ниже свойства также:
.config("spark.memory.offHeap.enabled",true)
.config("spark.memory.offHeap.size","16g")
Но не повезло. Я знаю, что это не очень новая проблема, но мне трудно ее решить. Не уверен, что мне не хватает установить какое-либо свойство basi c. Может ли кто-нибудь помочь здесь? Заранее спасибо.