У меня есть огромный фрейм данных (df), который после некоторого процесса и манипуляций с ним я хочу сохранить в виде таблицы.
df.write.partitionBy('p1', 'p2', 'p3', 'p4').format("parquet").saveAsTable('table_name')
Я получаю эту ошибку:
Container killed by YARN for exceeding memory limits. 36.4 GB of 36 GB physical memory used.
И этого сообщения слишком много:
19/10/17 00:52:10 WARN org.apache.spark.scheduler.TaskSetManager: Lost task 190.3 in stage 0.0 (
И сколько бы я ни увеличивал --executor-memory, я все равно получаю ту же ошибку с разными числами. Как я могу решить эту проблему?