Соотношение тепловой карты статистически не верно - PullRequest
0 голосов
/ 24 февраля 2020

Я работаю над Kaggle - набором сердечно-сосудистых данных, и я начал строить тепловую карту

import seaborn as sns
dfCardio = pd.read_csv("") #loading dataset into pandas
corr = dfCardio.corr()
# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))
# Draw the heatmap with the mask and correct aspect ratio
mask = np.zeros_like(corr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True
sns.heatmap(corr, vmin=0,mask=mask,square=True,vmax=0.2,center=0,annot = True, linewidths=.7,cbar_kws={"shrink": .5});

Как вы видите на графике, изображение enter image description here

Изучая медицинские документы и исследования сердечно-сосудистых заболеваний, мы знаем и убедительно доказали, что курение, употребление алкоголя и длительная активность в значительной степени коррелируют с сердечно-сосудистыми заболеваниями, но на карте теплового дыма алкоголь и алкоголь коррелируют отрицательно. Мой вопрос

  1. Почему моя тепловая карта отличается от научных исследований c? почему не сказано, что курение, употребление алкоголя и активность связаны с сердечно-сосудистыми заболеваниями?

Функция корреляции дана с pandas, и я сомневаюсь, что что-то не так.
Возможно, возможно, что у меня нет той же популяции, которую они использовали в своих научных работах, но если это доказано, то тепловая карта должна рассказать о другом. Я действительно озадачен со статистической точки зрения

...