Я новичок в наборе данных Kaggle House Price для прогнозирования продажной цены, просто занимаюсь исследованием данных, чтобы выяснить корреляции между атрибутами и продажной ценой (целевая переменная).
Я нашел цену продажикорреляционная матрица и есть проблемы при составлении правильных выводов о каждом независимом атрибуте с продажной ценой?
# saleprice correlation matrix
corrmat = df.corr()
corr_num = 15
cols_corr = corrmat.nlargest(corr_num, 'SalePrice')['SalePrice'].index
corr_mat_sales = np.corrcoef(df[cols_corr].values.T)
sns.set(font_scale=1.25)
fig, ax = plt.subplots(figsize=(24, 8))
hm = sns.heatmap(corr_mat_sales, cbar=True, cmap='PiYG', annot=True, square=True,
fmt='.2f', annot_kws={'size': 11}, yticklabels=cols_corr.values,
xticklabels=cols_corr.values)
fig.subplots_adjust(top=0.93, right=0.80)
fig.suptitle('SalePrice Correlation Matrix',
fontsize=14,
fontweight='bold')
Ссылка на изображение
И способна ли эта матрица доказать, что атрибуты (от TotalQual до YearBuilt) тесно связаны с Saleprice и являются важными факторами, над которыми нужно работать дляпоздняя стадия построения модели, чтобы предсказать продажу по цене?Спасибо.