Я пытаюсь запустить группу для работы с огромными данными (около 50 ТБ) примерно так:
df_grouped = df.groupby(df['col1'], df['col2']).sum('col3')
Я использую API DataFrame в Pyspark и запускаю его в EMR с 12 r5.4 большая машина. Работа занимает много времени для обработки и в конечном итоге убивается с помощью OOM.
Мой вопрос: есть ли рекомендации по работе с группой при работе со Spark? Нужны ли нам все данные, чтобы поместиться в памяти при запуске этого?