Для лучшей производительности укажите отличительные значения вашего столбца сводки (если вы их знаете).В противном случае сразу будет запущено задание для их определения.
, например, в виде Список
x_pivot = raw_df.groupBy("a", "b", "c", "d", "e","f")
.pivot("g",["V1","V2","V3"])
.agg(sum(raw_df("h")
.cast(DoubleType))
.alias(""), sum(raw_df("i"))
.alias("i"))
V1, V2, V3 - это различные значения из "gстолбец