Построение несбалансированного набора данных - PullRequest
0 голосов
/ 09 января 2020

У меня есть набор данных, который сильно разбалансирован. Я поместил метки и соответствующие им значения в pandas фрейм данных следующим образом:

lbl = ['NOT', 'OFF', 'TIN', 'UNT', 'IND', 'GRP', 'OTH']
count = [7626816, 1446580, 147955, 40772, 93638, 16768, 3396]
df = pd.DataFrame({'label':lbl, 'count':count})
    label   count

0   NOT     7626816
1   OFF     1446580
2   TIN     147955
3   UNT     40772
4   IND     93638
5   GRP     16768
6   OTH     3396

Я хотел бы показать этот дисбаланс, используя хороший метод визуализации. С моим ограниченным знанием стилей печати и matplotlib, вот что я придумал до сих пор.

Во-первых, гистограмма с sns.countplot приводит к тому, что меньшие классы вообще не отображаются в сценарий. И в plt.pie классы слишком близки друг к другу, чтобы иметь какой-либо смысл.

bar plot enter image description here

#pieplot
colors = ["#E13F29", "#D69A80", "#D63B59", "#AE5552", "#CB5C3B", "#EB8076", "#96624E"]

plt.pie(
    df['count'],
    labels = df['label'],
    shadow = False,
    colors = colors,
    startangle=90,
    autopct='%1.1f%%'
)
plt.axis('equal')
plt.tight_layout()
plt.show()

pie plot

Как построить этот набор данных так, чтобы он правильно представлял дисбаланс? Какой тип графика должен использоваться?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...