Как бороться с асимметрией c распределенных категориальных переменных python? - PullRequest
0 голосов
/ 22 января 2020

Я работаю над конкурсом рисков дефолта по кредитам на дом в Kaggle. я заметил, что переменная Y (TARGET) имеет асимметрию c, поэтому всякий раз, когда я графически пытаюсь изучить какие-либо отношения, результат довольно трудно понять.

Пример. проверить корреляцию между различными категориями количества заявок на кредиты, которые делались в прошлом, и надежностью клиента в настоящее время (может ли он / она погашать текущие кредиты?).

Подход 1: после определения частоты "способен погашать "и" не в состоянии погасить "для каждой категории, я делю их соответственно на общее количество способных к выплате и общее количество неспособных к выплате. Но результат все еще не очень хорош:

введите описание изображения здесь

Подход 2: для каждой категории разделите число «не в состоянии погасить» на число "в состоянии погасить". Результат намного лучше, НО ЭТО ОЗНАЧАЕТ?

введите описание изображения здесь

ВОПРОСЫ: Мой второй подход имеет смысл? Есть ли у вас техника для решения этой ситуации? У вас есть идеи или дополнительные советы?

...