У меня есть набор данных, который сильно разбалансирован. Я поместил метки и соответствующие им значения в pandas фрейм данных следующим образом:
lbl = ['NOT', 'OFF', 'TIN', 'UNT', 'IND', 'GRP', 'OTH']
count = [7626816, 1446580, 147955, 40772, 93638, 16768, 3396]
df = pd.DataFrame({'label':lbl, 'count':count})
label count
0 NOT 7626816
1 OFF 1446580
2 TIN 147955
3 UNT 40772
4 IND 93638
5 GRP 16768
6 OTH 3396
Я хотел бы показать этот дисбаланс, используя хороший метод визуализации. С моим ограниченным знанием стилей печати и matplotlib
, вот что я придумал до сих пор.
Во-первых, гистограмма с sns.countplot
приводит к тому, что меньшие классы вообще не отображаются в сценарий. И в plt.pie
классы слишком близки друг к другу, чтобы иметь какой-либо смысл.
#pieplot
colors = ["#E13F29", "#D69A80", "#D63B59", "#AE5552", "#CB5C3B", "#EB8076", "#96624E"]
plt.pie(
df['count'],
labels = df['label'],
shadow = False,
colors = colors,
startangle=90,
autopct='%1.1f%%'
)
plt.axis('equal')
plt.tight_layout()
plt.show()
Как построить этот набор данных так, чтобы он правильно представлял дисбаланс? Какой тип графика должен использоваться?