Как анализировать категориальные данные на основе числовых данных в пандах? - PullRequest
0 голосов
/ 22 июня 2019

У меня есть DataFrame, который содержит числовой непрерывный столбец: «loan_amount» и категориальный столбец «loan_status», который содержит значения: current, paid, default. Я хотел проанализировать, каково влияние loan_amount на loan_status.

Моей первой интуицией является создание столбца, который содержит интервалы loan_amount, то есть классифицирует его и затем видит его влияние на loan_status.

Я начал с категоризации в четырех квартилях, а затем проанализировал влияние категорий на loan_status с помощью pivot_table.

loan_df['loan_amnt_cat'] = pd.cut(loan_df['loan_amnt'], bins=[0, 500, 5500, 15000, 35000], labels=['upto 500', '501To5500', '5501To15000', 'more than 15001'])

loan_df.pivot_table(values='id', index='loan_status', aggfunc='count', columns='loan_amnt_cat')

Проблема с вышеуказанным подходом состоит в том, что категории все еще очень широки, пожалуйста, предложите мне правильный способ проанализировать это. Я также хочу проанализировать это с помощью сюжета, но не могу придумать идею. Я начинаю изучать анализ данных и очень мало знаю в этой области.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...