Наука о данных: корреляция между количественными и качественными переменными (в питоне) - PullRequest
0 голосов
/ 11 мая 2018

Я хочу знать, возможно ли измерить корреляцию между количественной переменной (в моем случае среднесуточным потреблением домохозяйств) и качественной переменной (в моем случае месяц: 1, 2, ..., 12) в питоне?

месяц |avg_daily_consumption------------------------------------------1 |+12,118365861561162 | 11.7139686035856683 | 11.9028290151881594 | 10.120669000943025 | 8.8797037172718646 | 8.3844196252576897 | 8.1464535936633658 | 7,9613948765258769 | 8.74884802484128910 | 9.82094414486984111 | 11.24701717786005312 | 12.069888731716086

Спасибо.

1 Ответ

0 голосов
/ 11 мая 2018

Мы можем использовать библиотеки numpy и matplotlib , чтобы показать, есть ли какая-либо корреляция.

Следующее было написано в записной книжке Jupyter, но должно работать на Python с удалением прокомментированной строки #remove

import numpy as np

#x values
x = [1,2,3,4,5,6,7,8,9,10,11,12]

# y values 
y = [12.11836586156116, 11.713968603585668, 11.902829015188159, 10.12066900094302, 8.879703717271864, 8.384419625257689, 8.146453593663365, 7.961394876525876, 8.748848024841289, 9.820944144869841, 11.247017177860053 , 12.069888731716086]

print( np.corrcoef(x, y))

Это выводит: [[1. -0.22316588] [-0,22316588 1.]] который показывает небольшую отрицательную корреляцию.

Затем мы можем построить значения x, y:

import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline      # remove if not in Jupyter notebook
matplotlib.style.use('ggplot')

plt.scatter(x, y)
plt.show()

Это дает нам следующий график - нет прямой связи между месяцем и месячным потреблением.

A put of x and y values

Похоже, это циклическое потребление. Если предположить, что 1-12 - месяцы, то похоже, что потребление увеличивается с середины года до конца года, затем падает до середины года и снова растет. Если бы это было так, она добавила бы данные предыдущих и последующих лет.

...