Соотношение Python Pandas между столбцом расстояния и дня недели - PullRequest
0 голосов
/ 03 марта 2019

У меня есть набор данных, в котором есть столбец расстояния и дня недели.Расстояние - двойное значение, день недели - строка. (Понедельник, вторник ...)

Как показать соотношение между расстоянием и днем ​​недели?Мне нужно проверить, растут ли расстояния в выходные или нет.

некоторая часть данных:

enter image description here

неважно столбец time_of_day

 distance weekday
    1.498991 Monday
    5.122769 Thursday
    1.492705 Friday
    1.972825 Monday
    2.517838 Monday
    1.648552 Saturday
    2.503511 Thursday
    1.671742 Friday
    3.974399 Friday
    7.616923 Wednesday

1 Ответ

0 голосов
/ 04 марта 2019

Если вы хотите определить отношения между рабочими днями и выходными, вы должны разделить их на две группы.Это может быть достигнуто путем присвоения 0 выходным дням и 1 выходным дням.

Чтобы получить более надежный результат, вам нужен больший размер выборки, чтобы определить, существует ли существенная связь между выходными и рабочими днями.

Как только вы получите больший набор данных, вы можете рассчитать среднее значение и корреляцию, используя следующее.

import pandas as pd
import numpy

d = ({             
   'Day' : ['Monday','Thursday','Friday','Monday','Monday','Saturday','Thursday','Friday','Friday','Wednesday'],                                                                      
   'Distance' : [1.498991,5.122769,1.492705,1.972825,2.517838,1.648552,2.503511,1.671742,3.974399,7.616923],                                                               
   'Group' : [0,0,0,0,0,1,0,0,0,0],                                                                              
    })

df = pd.DataFrame(data=d)

#The average distance for Weekdays
Weekday = df.loc[df['Day'] == 0]
Weekday_mean = Weekday['Distance'].mean()

#The average distance for Weekends
Weekend = df.loc[df['Day'] == 1]
Weekend_mean = Weekend['Distance'].mean()

#Correlation between Weekends and Weekdays
corr = (numpy.corrcoef(df['Distance'],df['Day']))

print(corr)

[[ 1.         -0.23640194]
 [-0.23640194  1.        ]]

На данный момент это негативные отношения, потому что у вас есть только одно значение для выходных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...