Корреляция между категориальными переменными с Groupby - PullRequest
0 голосов
/ 26 марта 2020

У меня есть следующая таблица, cat_data :

 organization_id  amount       date       mcc    category   category_id 
0   4026          221.13    2017-03-07  3504.0  Lodging 268       1
1   4029          671.40    2017-03-08  3000.0  Airfare 269       1
2   4045          116.10    2017-03-10  3000.0  Airfare 269       1
4   28              0.00    2017-05-25  5734.0  Uncategorized   1054
5   28              89.00   2017-05-25  5734.0  Uncategorized   1054

Я пытаюсь определить, является ли m cc предиктором для category_id. Я хочу сгруппировать по organization_id и посмотреть, есть ли в этой организации m cc предиктор для category_id. В идеале я мог бы просматривать организации и видеть, является ли m cc предиктором для category_id в целом, но иметь модель, проверяющую только коды mcc / category_id в группе organization_id (каждая группа имеет разные category_ids, поэтому, если я не группировать, регрессия не работает). Category_id и m cc являются мультиклассами. Когда я запускаю этот код:

cat_data.groupby('organization_id')['mcc', 'category_id'].corr()

Я получаю:

organization_id         
                   mcc          category_id
1   mcc          1.000000        0.085130
category_id      0.085130        1.000000
2   mcc          1.000000        -0.302497
category_id      -0.302497       1.000000

Когда я запускаю этот код:

    cat_data.groupby('organization_id')['mcc', 'category_id'].corr().unstack().iloc[:,1].mean()

Я получаю 0,0138 как в среднем. Будет ли это, как я интерпретирую влияние m cc на прогнозирование категории ID?

Я мог бы использовать некоторые указания о том, где я иду не так. Цель состоит в том, чтобы увидеть, коррелированы ли m cc и category_id и может ли m cc использоваться в качестве предиктора для прогнозирования category_id.

...