У меня есть база данных пользователей с 2 значениями: 1: активность, которую они выполняют (целочисленное значение) 2: группа, членом которой они являются (целое число, если есть)
Короткая часть DF:
ID Activity Association
0 19 8
1 19 23
2 19 26
3 19 28
4 19 6
5 19 10
Это означает, например, что ходьба шла (1), и что этот человек является членом пешеходного клуба (3). Теперь я хочу соотнести значения, а позже с помощью машинного обучения предсказать шансы того, что кто-то ходит, будучи членом клуба. Однако в настоящее время я делаю pandas dataframe и использую функцию df.corr (). Это дает мне очень странные результаты, так как я считаю, что они пытаются коррелировать по линейной шкале (что не очевидно).
Как лучше всего справиться с этим?
Мой код:
df = pd.DataFrame(records, columns=['Activity', 'Association'])
Var_Corr = df.corr()
sns.heatmap(Var_Corr, xticklabels=Var_Corr.columns, yticklabels=Var_Corr.columns, annot=True)
plt.show()