у меня есть 2 столбца с похожими данными. Я планирую их сравнить их распределения и хочу количественно оценить их разницу.
df = pd.DataFrame({'a':['cat','dog','bird','cat','dog','dog','dog'],
'b':['cat','cat','cat','bird','dog','dog','dog']})
Затем я строю 2 столбца моего фрейма данных, чтобы сравнить их распределения:
ax = df['a'].value_counts().plot(kind='bar', color='blue', width=.75, legend=True, alpha=0.8)
df['b'].value_counts().plot(kind='bar', color='maroon', width=.5, alpha=1, legend=True)
Как я могу количественно определить разницу в распределениях, чтобы сказать, насколько они похожи?
это будет простой t-тест или что-то еще?