Question

У меня есть огромный фрейм данных (df), который после некоторого процесса и манипуляций с ним я хочу сохранить в виде таблицы.

df.write.partitionBy('p1', 'p2', 'p3', 'p4').format("parquet").saveAsTable('table_name')

Я получаю эту ошибку:

Container killed by YARN for exceeding memory limits. 36.4 GB of 36 GB physical memory used.

И этого сообщения слишком много:

19/10/17 00:52:10 WARN org.apache.spark.scheduler.TaskSetManager: Lost task 190.3 in stage 0.0 (

И сколько бы я ни увеличивал --executor-memory, я все равно получаю ту же ошибку с разными числами. Как я могу решить эту проблему?

Контейнер уничтожен YARN за превышение пределов памяти для saveAstable

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.