# Find correlations with the target and sort
correlations = application_train.corr()['TARGET'].sort_values()
# Display correlations
print('Most Positive Correlations:\n', correlations.tail(15))
print('\nMost Negative Correlations:\n', correlations.head(15))
Most Positive Correlations:
DEF_60_CNT_SOCIAL_CIRCLE 0.031276
DEF_30_CNT_SOCIAL_CIRCLE 0.032248
LIVE_CITY_NOT_WORK_CITY 0.032518
OWN_CAR_AGE 0.037612
DAYS_REGISTRATION 0.041975
FLAG_DOCUMENT_3 0.044346
REG_CITY_NOT_LIVE_CITY 0.044395
FLAG_EMP_PHONE 0.045982
REG_CITY_NOT_WORK_CITY 0.050994
DAYS_ID_PUBLISH 0.051457
DAYS_LAST_PHONE_CHANGE 0.055218
REGION_RATING_CLIENT 0.058899
REGION_RATING_CLIENT_W_CITY 0.060893
DAYS_BIRTH 0.078239
TARGET 1.000000
Name: TARGET, dtype: float64
Most Negative Correlations:
EXT_SOURCE_3 -0.178919
EXT_SOURCE_2 -0.160472
EXT_SOURCE_1 -0.155317
DAYS_EMPLOYED -0.044932
FLOORSMAX_AVG -0.044003
FLOORSMAX_MEDI -0.043768
FLOORSMAX_MODE -0.043226
AMT_GOODS_PRICE -0.039645
REGION_POPULATION_RELATIVE -0.037227
ELEVATORS_AVG -0.034199
ELEVATORS_MEDI -0.033863
FLOORSMIN_AVG -0.033614
FLOORSMIN_MEDI -0.033394
LIVINGAREA_AVG -0.032997
LIVINGAREA_MEDI -0.032739
Name: TARGET, dtype: float64
Я ожидал получить нулевую корреляцию. Но случилось обратное. Основная задача метода DataFrame.corr () - найти попарную корреляцию всех столбцов в DataFrame. Если присутствует какое-либо нулевое значение, оно будет автоматически исключено.
Также игнорируются нечисловые c столбцы типов данных из DataFrame.
Я пытался найти попарную корреляцию между числовыми значениями. данные и категориальные данные (с метаданными 0,1)