Я работаю над Kaggle - набором сердечно-сосудистых данных, и я начал строить тепловую карту
import seaborn as sns
dfCardio = pd.read_csv("") #loading dataset into pandas
corr = dfCardio.corr()
# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))
# Draw the heatmap with the mask and correct aspect ratio
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True
sns.heatmap(corr, vmin=0,mask=mask,square=True,vmax=0.2,center=0,annot = True, linewidths=.7,cbar_kws={"shrink": .5});
Как вы видите на графике, изображение
Изучая медицинские документы и исследования сердечно-сосудистых заболеваний, мы знаем и убедительно доказали, что курение, употребление алкоголя и длительная активность в значительной степени коррелируют с сердечно-сосудистыми заболеваниями, но на карте теплового дыма алкоголь и алкоголь коррелируют отрицательно. Мой вопрос
- Почему моя тепловая карта отличается от научных исследований c? почему не сказано, что курение, употребление алкоголя и активность связаны с сердечно-сосудистыми заболеваниями?
Функция корреляции дана с pandas, и я сомневаюсь, что что-то не так.
Возможно, возможно, что у меня нет той же популяции, которую они использовали в своих научных работах, но если это доказано, то тепловая карта должна рассказать о другом. Я действительно озадачен со статистической точки зрения