Что я могу сделать вывод о SalePrice (зависимой переменной) между независимыми переменными в Python корреляционной матрицы? - PullRequest
0 голосов
/ 28 июня 2019

Я новичок в наборе данных Kaggle House Price для прогнозирования продажной цены, просто занимаюсь исследованием данных, чтобы выяснить корреляции между атрибутами и продажной ценой (целевая переменная).

Я нашел цену продажикорреляционная матрица и есть проблемы при составлении правильных выводов о каждом независимом атрибуте с продажной ценой?

# saleprice correlation matrix
corrmat = df.corr()
corr_num = 15 
cols_corr = corrmat.nlargest(corr_num, 'SalePrice')['SalePrice'].index
corr_mat_sales = np.corrcoef(df[cols_corr].values.T)

sns.set(font_scale=1.25)
fig, ax = plt.subplots(figsize=(24, 8))
hm = sns.heatmap(corr_mat_sales, cbar=True, cmap='PiYG', annot=True, square=True, 
                 fmt='.2f', annot_kws={'size': 11}, yticklabels=cols_corr.values, 
                 xticklabels=cols_corr.values)

fig.subplots_adjust(top=0.93, right=0.80)
fig.suptitle('SalePrice Correlation Matrix', 
              fontsize=14, 
              fontweight='bold')

Ссылка на изображение

И способна ли эта матрица доказать, что атрибуты (от TotalQual до YearBuilt) тесно связаны с Saleprice и являются важными факторами, над которыми нужно работать дляпоздняя стадия построения модели, чтобы предсказать продажу по цене?Спасибо.

...