У меня есть DataFrame, который содержит числовой непрерывный столбец: «loan_amount» и категориальный столбец «loan_status», который содержит значения: current
, paid
, default
. Я хотел проанализировать, каково влияние loan_amount на loan_status.
Моей первой интуицией является создание столбца, который содержит интервалы loan_amount, то есть классифицирует его и затем видит его влияние на loan_status.
Я начал с категоризации в четырех квартилях, а затем проанализировал влияние категорий на loan_status с помощью pivot_table.
loan_df['loan_amnt_cat'] = pd.cut(loan_df['loan_amnt'], bins=[0, 500, 5500, 15000, 35000], labels=['upto 500', '501To5500', '5501To15000', 'more than 15001'])
loan_df.pivot_table(values='id', index='loan_status', aggfunc='count', columns='loan_amnt_cat')
Проблема с вышеуказанным подходом состоит в том, что категории все еще очень широки, пожалуйста, предложите мне правильный способ проанализировать это. Я также хочу проанализировать это с помощью сюжета, но не могу придумать идею. Я начинаю изучать анализ данных и очень мало знаю в этой области.