У меня есть примерный фрейм данных:
test = pd.DataFrame({'cluster':['1','1','1','1','2','2','2','2','2','3','3','3'],
'type':['a','b','c','a','a','b','c','c','a','b','c','a']})
Затем я строю график% значений типа для каждого кластера, используя groupby:
pct_col = test.groupby(['cluster','type'])['type'].count()/(test.groupby('cluster').size())*100 # don't reset the index!
test = test.set_index(['cluster', 'type']) # make the same index here
test['count %'] = pct_col
test = test.reset_index() # to take the hierarchical index off again
sns.catplot(x="cluster", y="count %", hue="type", kind="bar", data=test)
Как добавить дополнительные три бара, показывающие среднее значение для каждого типа на основе всего набора данных -> test.groupby('type')['type'].count()/(len(test))*100
Буду признателен за вашу помощь!