pyspark. sql .utils.Analysisexception: java .lang.OutOfMemoryError: Java пространство кучи - PullRequest
0 голосов
/ 27 марта 2020

Я разработал код pyspark для загрузки данных в таблицы Hive. Мой источник также таблицы Hive. Мой код работает нормально для всех таблиц, кроме одной таблицы, в которой 650 столбцов. Остальные все таблицы имеют столбцы меньше 100. Ниже в моем коде ошибка с pyspark.sql.utils.Analysisexception: java.lang.OutOfMemoryError: Java heap space ошибка.

df_table_columns=spark.sql("select * from <Tab>").columns

Я поднял driver memory, executor memory, memory overheads, num cores and executor cores до максимальных значений, поддерживаемых моим env. также включите ниже свойства также:

.config("spark.memory.offHeap.enabled",true)
.config("spark.memory.offHeap.size","16g")  

Но не повезло. Я знаю, что это не очень новая проблема, но мне трудно ее решить. Не уверен, что мне не хватает установить какое-либо свойство basi c. Может ли кто-нибудь помочь здесь? Заранее спасибо.

...