Как я могу импортировать столбцы файла Excel в Python и найти коэффициент корреляции между ними? - PullRequest
0 голосов
/ 02 апреля 2020

У меня есть много столбцов чисел (например, AAA, BBB, CCC, DDD и EEE) в файле Excel. Мне нужно импортировать эти столбцы в Python и найти коэффициент корреляции между каждыми 2 столбцами. Показывать только столбцы с коэффициентом корреляции от +0,5 до +1 и от -0,5 до -1.

import pandas as pd
data = pd.read_excel('SO.xlsx')
df = pd.DataFrame(data)
df.corr()

enter image description here

1 Ответ

1 голос
/ 02 апреля 2020

Вот действительно простое решение этой проблемы; У меня нет ваших данных, поэтому я сделал это с примерами данных, которые я нашел. Здесь мы go:

import pandas as pd
data = pd.read_excel('https://global.oup.com/us/companion.websites/fdscontent/uscompanion/us/static/companion.websites/9780199734177/Example_1_rawdata.xls')
df = pd.DataFrame(data)
df.corr()

Вывод выглядит так:

              Hugs       Comps       PerAd       SocAc       ProAd        ComSt       PhyHlp    Encour       Tutor
    Hugs    1.000000    0.666100    0.149995    0.616721    0.541132    0.653129    0.473344    0.549393    0.565627
    Comps   0.666100    1.000000    0.247194    0.575720    0.509667    0.642069    0.424696    0.543826    0.487571
    PerAd   0.149995    0.247194    1.000000    0.222337    0.081263    0.163510    0.090505    0.181000    0.120080
    SocAc   0.616721    0.575720    0.222337    1.000000    0.409031    0.559579    0.338293    0.447923    0.348733
    ProAd   0.541132    0.509667    0.081263    0.409031    1.000000    0.666905    0.733851    0.464976    0.754339
    ComSt   0.653129    0.642069    0.163510    0.559579    0.666905    1.000000    0.595900    0.540038    0.671789
    PhyHlp  0.473344    0.424696    0.090505    0.338293    0.733851    0.595900    1.000000    0.432037    0.717585
    Encour  0.549393    0.543826    0.181000    0.447923    0.464976    0.540038    0.432037    1.000000    0.412042
    Tutor   0.565627    0.487571    0.120080    0.348733    0.754339    0.671789    0.717585    0.412042    1.000000

Если добавить следующее, он заменит все значения с корреляцией Пирсона ниже 0,5 с нулями :

df[df > 0.5]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...