У меня есть большой фрейм данных pyspark (23M строк) со следующим форматом:
names, sentiment
["Lily","Kerry","Mona"], 10
["Kerry", "Mona"], 2
["Mona"], 0
Я хотел бы вычислить среднее настроение для каждого уникального имени в столбце names , в результате:
name, sentiment
"Lily", 10
"Kerry", 6
"Mona", 4