Question

Я разработал код pyspark для загрузки данных в таблицы Hive. Мой источник также таблицы Hive. Мой код работает нормально для всех таблиц, кроме одной таблицы, в которой 650 столбцов. Остальные все таблицы имеют столбцы меньше 100. Ниже в моем коде ошибка с pyspark.sql.utils.Analysisexception: java.lang.OutOfMemoryError: Java heap space ошибка.

df_table_columns=spark.sql("select * from <Tab>").columns

Я поднял driver memory, executor memory, memory overheads, num cores and executor cores до максимальных значений, поддерживаемых моим env. также включите ниже свойства также:

.config("spark.memory.offHeap.enabled",true)
.config("spark.memory.offHeap.size","16g")

Но не повезло. Я знаю, что это не очень новая проблема, но мне трудно ее решить. Не уверен, что мне не хватает установить какое-либо свойство basi c. Может ли кто-нибудь помочь здесь? Заранее спасибо.

pyspark. sql .utils.Analysisexception: java .lang.OutOfMemoryError: Java пространство кучи

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

pyspark. sql .utils.Analysisexception: java .lang.OutOfMemoryError: Java пространство кучи

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы