Как рассчитать корреляцию того, кто занимается Х, является членом группы Y - PullRequest
0 голосов
/ 06 ноября 2019

У меня есть база данных пользователей с 2 ​​значениями: 1: активность, которую они выполняют (целочисленное значение) 2: группа, членом которой они являются (целое число, если есть)

Короткая часть DF:

ID Activity  Association
0        19            8
1        19           23
2        19           26
3        19           28
4        19            6
5        19           10

Это означает, например, что ходьба шла (1), и что этот человек является членом пешеходного клуба (3). Теперь я хочу соотнести значения, а позже с помощью машинного обучения предсказать шансы того, что кто-то ходит, будучи членом клуба. Однако в настоящее время я делаю pandas dataframe и использую функцию df.corr (). Это дает мне очень странные результаты, так как я считаю, что они пытаются коррелировать по линейной шкале (что не очевидно).

Как лучше всего справиться с этим?

Мой код:

df = pd.DataFrame(records, columns=['Activity', 'Association'])
Var_Corr = df.corr()
sns.heatmap(Var_Corr, xticklabels=Var_Corr.columns, yticklabels=Var_Corr.columns, annot=True)
plt.show()
...