У меня есть следующая таблица, cat_data :
organization_id amount date mcc category category_id
0 4026 221.13 2017-03-07 3504.0 Lodging 268 1
1 4029 671.40 2017-03-08 3000.0 Airfare 269 1
2 4045 116.10 2017-03-10 3000.0 Airfare 269 1
4 28 0.00 2017-05-25 5734.0 Uncategorized 1054
5 28 89.00 2017-05-25 5734.0 Uncategorized 1054
Я пытаюсь определить, является ли m cc предиктором для category_id. Я хочу сгруппировать по organization_id и посмотреть, есть ли в этой организации m cc предиктор для category_id. В идеале я мог бы просматривать организации и видеть, является ли m cc предиктором для category_id в целом, но иметь модель, проверяющую только коды mcc / category_id в группе organization_id (каждая группа имеет разные category_ids, поэтому, если я не группировать, регрессия не работает). Category_id и m cc являются мультиклассами. Когда я запускаю этот код:
cat_data.groupby('organization_id')['mcc', 'category_id'].corr()
Я получаю:
organization_id
mcc category_id
1 mcc 1.000000 0.085130
category_id 0.085130 1.000000
2 mcc 1.000000 -0.302497
category_id -0.302497 1.000000
Когда я запускаю этот код:
cat_data.groupby('organization_id')['mcc', 'category_id'].corr().unstack().iloc[:,1].mean()
Я получаю 0,0138 как в среднем. Будет ли это, как я интерпретирую влияние m cc на прогнозирование категории ID?
Я мог бы использовать некоторые указания о том, где я иду не так. Цель состоит в том, чтобы увидеть, коррелированы ли m cc и category_id и может ли m cc использоваться в качестве предиктора для прогнозирования category_id.